Amazon Novaカスタムモデルを SageMakerでデプロイする完全ガイド|ファインチューニングから本番推論まで

Amazon Nova × SageMakerで、ついに「カスタムAI」が身近になった

「自社データで鍛えたAIを本番環境で動かしたい。でも、トレーニングから推論まで一貫して管理できる基盤がない」——そう感じているエンジニアや企業にとって、2026年2月16日のAWSの発表は大きな転換点です。カスタムNovaモデルのAmazon SageMaker Inferenceサポートが正式に一般提供(GA)となり、フルランクでカスタマイズされたNovaモデルをデプロイ・スケールできる、本番品質・高設定自由度・コスト効率の高いマネージド推論サービスが登場しました。

この発表により、SageMaker AI で「トレーニング(SageMaker Training Jobs / HyperPod)→ 推論(SageMaker Inference)」までを同一の運用基盤でつなげやすくなりました。本記事では、Amazon Nova カスタムモデルをSageMaker上でファインチューニングし、エンドポイントとしてデプロイするまでの手順をわかりやすく解説します。

Amazon Novaカスタマイズとは?これまでの経緯をおさらい

Amazon Nova のカスタマイズは、SageMaker AI と Amazon Bedrock の双方で取り組めるよう整備が進められてきました。SageMaker AI 上では Nova Micro、Nova Lite、Nova Pro を中心に、継続的事前トレーニング(CPT)、教師ありファインチューニング(SFT)、アライメント(DPOやPPO等)など、モデルトレーニングライフサイクル全体の手法が提供されています。

今回のGA発表は、2025年7月16日(AWS Summit New York City 2025)に「SageMaker AI における Amazon Nova のカスタマイズ」が発表され、2025年12月3日に「SageMaker AI のサーバーレスモデルカスタマイズ」が発表された流れの延長線上にあります。そして2026年2月16日に、フルランクでカスタマイズした Nova モデルを SageMaker Inference のマネージド推論で運用できることが正式に示されました。

プロンプト最適化やRAG(検索拡張生成:外部データベースから関連情報を取得してモデルに渡す手法)は汎用モデルをアプリケーションに組み込むのに効果的ですが、ビジネスクリティカルなワークフローでは、特定の精度・コスト・レイテンシー要件を満たすためのモデルカスタマイズが必要です。

対応モデルとカスタマイズ手法の一覧

Amazon SageMaker Inference for custom Nova models(GA発表の機能)では、Nova Micro、Nova Lite、Nova 2 Lite(reasoning capabilities を含む)を、Amazon SageMaker Training Jobs または Amazon HyperPod でトレーニングし、そのまま SageMaker AI のマネージド推論インフラにデプロイできます。

利用可能なカスタマイズ手法は以下のとおりです。

  • 継続的事前トレーニング(CPT):ドメイン固有の知識をモデルに追加学習させる
  • 教師ありファインチューニング(SFT):ラベル付きデータで特定タスクのパフォーマンスを強化する
  • 直接優先最適化(DPO):好みの応答ペアを使ってモデル出力をチューニングする
  • 強化学習ファインチューニング(RFT):報酬ベースの最適化で品質を改善する

なお、Nova カスタマイズにおける「アライメント」手法として、DPOに加えてPPOなども言及されています(提供状況は、利用するレシピやドキュメントの最新版を確認してください)。

ステップ1:SageMaker StudioでNova モデルのファインチューニングを開始する

まず、SageMaker Studio を使って Nova モデルのファインチューニングを開始する手順を説明します。GUI(画面操作)で進められるので、インフラの知識が少なくても取り組みやすいのが特徴です。

Amazon SageMaker AI コンソールで SageMaker Studio を起動し、「JumpStart」を選択します。JumpStart は、基盤モデル、組み込みアルゴリズム、事前構築済みの ML ソリューションを備えた機械学習ハブで、数回クリックするだけでデプロイできます。

次に「Nova Micro」を選択し、「トレーニング」を選択します。Nova Micro は、Nova モデルファミリーの中で低レイテンシーかつ推論コストを抑えやすいテキストモデルです。

サンプルノートブックを開くと、レシピを実行する環境オプションが表示されます。「SageMaker トレーニングジョブで実行」または「SageMaker HyperPod で実行」(反復トレーニングに最適化された永続クラスター環境)を選択できます。このノートブックは、SageMaker Nova モデルとレシピを使用してトレーニングジョブを作成し、推論のためにデプロイするためのエンドツーエンドのチュートリアルとして利用できます。

ステップ2:トレーニングジョブの実行とモデル評価

SageMaker Studio では、トレーニングジョブ(例:SageMaker HyperPod ジョブ)が正常に作成されたことを確認し、その後の進捗状況をモニタリングできます。ジョブが完了したら、ベンチマークレシピを使用して、カスタマイズされたモデルがタスクでより優れたパフォーマンスを発揮するかどうかを評価できます。

各ステップでは、Amazon CloudWatch との組み込み統合を使用してログにアクセスし、システムメトリクスを監視することで、堅牢な可観測性を実現します。

ステップ3:カスタムNova モデルをSageMakerエンドポイントにデプロイする方法

トレーニングと評価が完了したら、いよいよ本番デプロイです。GUIとSDKの両方の方法を紹介します。

GUI(SageMaker Studio)でデプロイする

すでにトレーニング済みのカスタム Nova モデルアーティファクトがある場合は、SageMaker Studio または SageMaker AI SDK を通じてモデルをデプロイできます。SageMaker Studio では、「Models」メニュー内の「Your models(マイモデル)」からトレーニング済みの Nova モデルを選択し、「Deploy」→「SageMaker AI」→「Create new endpoint」の順で設定してデプロイします。エンドポイント名、インスタンスタイプ、詳細オプション(インスタンス数上限、権限、ネットワーク等)を設定できます。

利用可能なインスタンスタイプ(GA時点)

GAリリース時点では、インスタンスタイプはモデルごとに以下が示されています。

  • Nova Micro:g5.12xlarge、g5.24xlarge、g5.48xlarge、g6.12xlarge、g6.24xlarge、g6.48xlarge、p5.48xlarge
  • Nova Lite:g5.48xlarge、g6.48xlarge、p5.48xlarge
  • Nova 2 Lite:p5.48xlarge

(元記事にあった「Nova Lite で g5.24xlarge / g6.24xlarge がGA時点で利用可能」という記述は、AWSのGA発表ブログにある一覧と一致しないため修正しています。)

エンドポイントの作成には、インフラのプロビジョニング、モデルアーティファクトのダウンロード、推論コンテナの初期化に時間がかかります。モデルのデプロイが完了してエンドポイントのステータスが「InService」になったら、リアルタイム推論を実行できます。

SDK(Python)でエンドポイントを呼び出すコード例

エンドポイントが「InService」になったら、以下のようなコードで推論リクエストを送ることができます。ストリーミングモードにも対応しています。



import boto3
import json

# SageMaker Runtimeクライアントの初期化
client = boto3.client("sagemaker-runtime", region_name="us-east-1")

# ストリーミングチャットリクエストの構築
streaming_request = {
    "messages": [
        {
            "role": "user",
            "content": "自社製品に関するFAQを、丁寧な日本語で5件作成してください。"
        }
    ],
    "max_tokens": 512,
    "stream": True,
    "temperature": 0.7,
    "top_p": 0.95,
    "top_k": 40,
    "reasoning_effort": "low"  # Options: "low", "high"
}

# エンドポイントの呼び出し
response = client.invoke_endpoint_with_response_stream(
    EndpointName="my-custom-nova-endpoint",  # デプロイしたエンドポイント名
    ContentType="application/json",
    Body=json.dumps(streaming_request)
)

# ストリーミングレスポンスの処理(サンプル)
for event in response["Body"]:
    chunk = json.loads(event["PayloadPart"]["Bytes"])
    if "choices" in chunk:
        for choice in chunk["choices"]:
            if "delta" in choice and "content" in choice["delta"]:
                print(choice["delta"]["content"], end="", flush=True)

Amazon SageMaker AI は、ストリーミング/非ストリーミングモードのリアルタイム同期エンドポイントと、バッチ処理向けの非同期エンドポイントをサポートしています(ストリーミングは対応モデルに限られます)。

コスト・レイテンシーを最適化する高度な推論設定

Amazon SageMaker Inference for custom Nova models では、EC2 G5・G6 インスタンスを P5 インスタンスよりも優先的に使うことによる GPU 使用率の最適化、5分間の利用パターンに基づくオートスケーリング、設定可能な推論パラメーターを通じて推論コストを削減できます。

コンテキスト長、コンカレンシー(同時リクエスト数)、バッチサイズに関する詳細設定により、特定のワークロードに応じたレイテンシー・コスト・精度のトレードオフを最適化できます。継続的事前トレーニング、教師ありファインチューニング、強化学習ファインチューニングによってカスタマイズされた Nova モデルのデプロイにも対応しています。

料金モデル:カスタムNovaモデルの推論コストを把握する

SageMaker Inference のカスタム Nova モデル推論については、使用したコンピューティングインスタンスの分だけ時間単位で支払います。最低コミットメントはなく、小規模なユースケースから試しやすい体系です。

一方、Amazon Bedrock 経由のオンデマンド推論では、プロビジョンドスループットエンドポイントを維持することなく、カスタム Amazon Nova モデルで推論を実行でき、入出力のトークン数に基づいて課金されます。

ただし、SageMaker AI でカスタマイズした Nova モデルを Amazon Bedrock でオンデマンド推論する場合、サポートされるのは「PEFT(パラメータ効率の良いファインチューニング:モデル全体ではなく一部のパラメータのみを更新する手法)」でカスタマイズされたモデルに限られます。フルランク(Full-rank)でファインチューニングしたモデルにはオンデマンド推論は適用されないため、SageMaker Inference エンドポイントの利用を検討してください。

導入事例:ドメイン特化カスタマイズで得られた改善効果

この手の取り組みは、数字が効果を示します。企業向け IT エクスペリエンス管理会社の Nexthink は、SageMaker 上でLLM(Llama)をLoRA等でファインチューニングして、クエリ精度が30%向上し、トークン使用量が80%削減されたと報告しています。Novaモデルでの事例ではありませんが、ドメイン適応によって精度向上とコスト削減を同時に達成できる可能性を示す参考事例です。

汎用モデルではプロンプト最適化やRAGで対応できる範囲に限界があります。ビジネスクリティカルなワークフローで特定の精度・コスト・レイテンシー要件を満たすには、自社データによるモデルカスタマイズが有効な選択肢となります。

現在の提供リージョンと今後の対応状況

Amazon SageMaker Inference for custom Nova models は現在、米国東部(バージニア北部)と米国西部(オレゴン)の AWS リージョンで利用可能です。

日本リージョン(ap-northeast-1)への展開は、GA発表ブログ上では明記されていません。リージョン追加は段階的に行われることが多いため、最新状況はAWS公式のリージョン別対応表やアップデートを確認してください。

まとめ:Amazon Nova カスタムモデル × SageMaker デプロイのポイント

今回の記事のポイントを振り返りましょう。

  • 2026年2月16日にGA発表:カスタムNova モデルのSageMaker Inferenceサポートが正式リリース。フルランクでカスタマイズしたNova モデルをマネージド推論でデプロイ・スケール可能になった。
  • 対応モデル:Nova Micro・Nova Lite・Nova 2 Lite に対応(reasoning capabilities を含む)。
  • カスタマイズ手法:CPT・SFT・DPO・RFT など目的に合わせて選択できる。
  • GUI と SDK の両方に対応:SageMaker Studio の画面操作でも、SDKでもデプロイ可能。
  • コスト効率:時間単位課金・最低コミットメントなし・オートスケーリング対応。
  • 導入事例の示唆:ドメイン適応により精度向上とトークン削減が同時に得られるケースがある。

自社の業務データや専門知識でモデルを育てれば、汎用モデルでは届かない精度と効率を実現できます。まずはSageMaker StudioのJumpStartからNova Microを選択して、小さなデータセットでファインチューニングを体験してみてください。手を動かすことで、Amazon Novaカスタムモデル × SageMakerデプロイの可能性がぐっと身近に感じられるはずです。

参考になったらクリックしてもらえると嬉しいです!

Blogmura CloudAWS Ranking

コメント

タイトルとURLをコピーしました