GPT-5.4と旧モデルの違いを比較・まとめてみる【chatgpt5.4】

2026年3月5日、OpenAIが「GPT-5.4」をリリースしました。最近のモデル更新ペースが速すぎて、GPT-5.2だの5.3だのが出たかと思ったらもう5.4……正直追うのがしんどい。

自分もどこが変わったのかぼんやりとしか把握できていなかったので、今回はGPT-5.2 → 5.3（Codex/Instant）→ 5.4の流れをざっくり整理しつつ、chatgpt5.4（GPT-5.4）の新機能と旧モデルとの比較をまとめてみます。APIを使う開発者目線でも少し触れています。

この記事でわかること

GPT-5.2 / 5.3 / 5.4 のモデルファミリーの流れと棲み分け
GPT-5.4の主な新機能（Computer Use・Tool Search・コンテキスト拡張・ハルシネーション改善）
旧モデルとのベンチマーク比較（数値あり）
モデルバリアントとAPI料金の整理
GPT-5.4を使うべき場面とそうでない場面

GPT-5ファミリーの流れをおさらい
GPT-5.4の主な新機能
ベンチマークで旧モデルと比較してみる
モデルバリアントと料金
GPT-5.4と旧モデルの使い分け：どちらを選ぶか
APIで使う場合のモデル名
まとめ：chatgpt5.4と旧モデル比較のポイント
1. 関連記事

GPT-5ファミリーの流れをおさらい

まず現状のモデルファミリーがどういう構成になっているか整理しないと、何が何だかわからなくなります。

時系列で並べるとこんな感じです：

GPT-5.2（2025年末ごろ）：当時のメインライン。API価格は入力$1.75 / 出力$14.00（100万トークンあたり）
GPT-5.3 Codex（2026年2月）：Codex向けのコーディング特化モデル。SWE-Bench Proなどで改善
GPT-5.3 Instant（2026年3月3日）：日常会話向けの高速・軽量モデル。ChatGPTで全ユーザーに提供、APIでは gpt-5.3-chat-latest
GPT-5.4（2026年3月5日）：今回の主役。推論・コーディング・エージェント（ツール/PC操作）系の改善を統合したフロンティアモデル
GPT-5.4 Thinking：ChatGPT上の提供形態（モデルピッカーでは「Thinking」として出てくるやつ）。GPT-5.2 Thinkingを置き換え
GPT-5.4 Pro：最大性能版（ChatGPTのPro/Enterprise、APIでも提供）

GPT-5.3 InstantとGPT-5.4が近い日付で出たので混乱しがちなんですが、棲み分けとしてはわりと素直で、Instantは「普段使いの会話を気持ちよく」、5.4は「プロ業務・エージェント・ツール込みでガッツリ」を狙ってる印象です。OpenAI自身も、InstantとThinkingは今後別スピードで進化していく、という整理をしています。

GPT-5.4の主な新機能

ネイティブ Computer Use（PC操作）

GPT-5.4は、OpenAIの一般用途（general-purpose）モデルとして初めて、ネイティブのPC操作（computer use）能力を搭載しました。スクリーンショットを認識しながら、マウスクリックやキーボード入力を発行し、複数アプリをまたいだワークフローを回せます。

以前はClaude側（Anthropic）がComputer Useを先行実装していて、OpenAIは少し後手に回っていた印象がありました。GPT-5.4でようやく「メインラインでPC操作が強いモデル」が来た、という理解でよさそうです。OSWorld-Verifiedベンチマークでも後述しますが、GPT-5.2比でかなりスコアが上がっています。

Tool Search

GPT-5.4では tool search が入り、全部のツール定義をプロンプトにプリロードする代わりに、必要なツールやコネクタを見つけて使いやすくする方向に改善されています。ツールが増えるほど「プロンプトがツール定義でパンパンになる問題」が地味に効いてくるので、多数ツールを組み合わせるエージェント構成ではありがたいアップデートかなと。

コンテキストウィンドウ：最大100万トークン（ただしCodexで実験的）

GPT-5.4は最大100万トークンのコンテキストに対応します。とはいえ、どこでも常に100万が使える、というよりは、Codex側で実験的にサポートされている、という扱いです。

また注意点として、標準のコンテキストは272Kで、そこを超えるリクエストは「使用量のカウントが通常の2倍」になります（課金の単価が何倍、というより”使用量/レート制限側のカウント”の話）。大量ドキュメントを突っ込むときは、コストというよりまず「制限にぶつかりやすい」ほうが先にくる感じです。API叩く前に一回計算しておくのをおすすめします。

ハルシネーション改善

OpenAIの発表によると、ユーザーが事実誤りとしてフラグしたプロンプト群において、個別クレームの誤り率がGPT-5.2比で33%減少し、レスポンス全体でエラーが含まれる確率も18%低下しました。地味ですが実務で使うなら重要な改善です。

ベンチマークで旧モデルと比較してみる

数値で見たほうがわかりやすいので、主要ベンチマークをGPT-5.2とGPT-5.4で比較した表にまとめます。

ベンチマーク	GPT-5.2	GPT-5.4
GDPval（知識労働）	70.9%	83.0%
スプレッドシートモデリング（内部）	68.4%	87.3%
OSWorld-Verified（PC操作）	47.3%	75.0%
BrowseComp（Web探索）	65.8%	82.7%
Toolathlon（ツール活用）	46.3%	54.6%

GDPvalが70.9% → 83.0%（+12.1pt）、スプレッドシートモデリングが68.4% → 87.3%と大幅向上しています。OSWorld-Verifiedが47.3% → 75.0%に跳ね上がっているのはComputer Use統合の直接的な成果っぽいです。

GDPvalの推移が象徴的で、GPT-5.4はスライド作成・財務モデリング・法律分析などの長期タスクへの対応を強化しています。また、BrowseComp（82.7%）とToolathlon（54.6%）のスコアは、ツール活用・Web探索型エージェントの実用性を裏付けています。

モデルバリアントと料金

GPT-5.4は、用途に応じて「Thinking」「Pro」といった提供形態（/バリアント）が用意されています。

GPT-5.4（標準）

API料金は入力$2.50 / 出力$15.00（100万トークンあたり）です。GPT-5.2が入力$1.75 / 出力$14.00だったので値上がりはしていますが、GPT-5.4は「トークン効率（同じ問題を解くのに使うトークン数）が良い」方向の改善も入っているので、ケースによっては総コストは下がる可能性もあります。

GPT-5.4 Thinking

ChatGPTでは Plus・Team・Pro ユーザーが利用可能で、GPT-5.2 Thinkingを置き換えるかたちで提供されます。GPT-5.2 Thinkingは2026年6月5日に廃止予定で、それまでの3か月間はレガシーモデルセクションから引き続き選択できます。Thinking系を使っている方は早めに移行の確認を。

GPT-5.4 Pro

最高性能版。Pro・Enterpriseプラン向けで、複雑タスクで最大性能が欲しい人向けです。ChatGPTのサブスクリプションでは、Plusプラン（月額$20）でGPT-5.4 Thinkingが、Proプラン（月額$200）でGPT-5.4 Proが利用可能です。APIでの料金は入力$30 / 出力$180（100万トークンあたり）とかなりお高め。個人プロジェクトでこれを使い倒せる財布は持ち合わせていないので、現実的にはThinking止まりになりそうです。

GPT-5.4と旧モデルの使い分け：どちらを選ぶか

何でもGPT-5.4を使えばいいかというと、そうでもないと思っています。

GPT-5.4が向いている用途：

エージェントによるPC操作・複数アプリをまたいだ自動化
大規模コードベースの一括処理・リファクタリング
財務モデリング・法律分析・スライド作成など長期プロ業務
多数ツールを組み合わせる複雑なエージェントワークフロー

GPT-5.3 Instantや旧モデルで十分な用途：

日常的な質問・調べもの・文章の要約
短い文章の生成・編集
サクッと答えが欲しい軽いタスク全般

余談ですが、競合モデルとの比較はたぶん「タスクの性質」で評価が割れます。PC操作みたいなエージェント系はGPT-5.4がかなり強そうに見えますが、日本語のトーンや会話の自然さはモデルや設定次第で体感が変わるので、結局「自分のタスクで実際に試してみてね」に落ち着きがちです。

APIで使う場合のモデル名

開発者向けに一応メモしておくと、APIから呼び出す際のモデル名は以下です。

# 最新スナップショット（エイリアス）
gpt-5.4

# GPT-5.4 Pro
gpt-5.4-pro

# GPT-5.3 Instant（ChatGPTのInstant相当）
gpt-5.3-chat-latest

GPT-5.4はChatGPT・API・Codexの3プラットフォームで同日提供が開始されています。Codexではフロントエンド生成タスクで特に良い結果が出るとOpenAIは述べていて、実験的スキル「Playwright (Interactive)」もリリースされています。WebアプリやElectronアプリのビジュアルデバッグができるらしく、個人的にはこのあたりが一番試してみたい部分です。