GPT-5.4のPC操作機能が想像以上だった|Computer Useで何ができるか試してみた

AI活用術

2026年3月にOpenAIが発表した「GPT-5.4」、使ってみたら思ったより全然違う方向に進化してて驚きました。

推論がすごいとか、コーディングが賢くなったとか、そういう話は正直もう「また上がったのか」くらいの感覚になってきてたんですが、今回ばかりは「あ、これちょっと違う次元の話かも」と思ったので書き残しておきます。

AIが自分のPCを操作する時代が来た

GPT-5.4の最大のトピックは、ネイティブ・コンピュータ操作機能(Computer Use)が搭載されたことです。

簡単に言うと、「AIが画面を見て、クリックして、入力して、実行する」ができるようになりました。デスクトップ操作ベンチマークでは人間の成功率を上回っているという報告もあるほど、実装の精度は想像より高いみたいです。

正直、ベンチマーク数字ってあまり実感がわかないんですが、「人間より上手くPC操作できる可能性がある」という一点だけで十分インパクトがある話だなと思います。

実際どんなことができるの?

Computer Useで何ができるか、もう少し具体的に書くと:

  • ブラウザを開いてフォームに入力・送信する
  • ExcelやスプレッドシートをAIが直接操作して集計・転記する
  • APIがない古いSaaSのGUI操作を自動化する
  • 画面を確認しながらエラーを自分で修正してリトライする

APIが存在しないレガシーなSaaSの操作を自動化できるのは特に大きいかなと思います。「この業務ツール、連携できないからどうしようもない」が解消できる可能性があるので。

余談ですが、自分は仕事でたまにRPAツールを触る機会があるんですが、あの設定の面倒くささがずっと気になっていて。AIが自然言語で操作を引き受けてくれるなら、置き換えが一気に進みそうだと感じています。

他のモデルとの比較はどうなの?

2026年3月時点で、GPT-5.4・Claude Opus 4.6・Gemini 3.1 Proの三強が拮抗している、という見方もあるようです。簡単に整理するとこんな感じです。

  • GPT-5.4:PC操作・ビジネス文書作成が得意。実務系のタスクに向いている、という評価が多いです
  • Gemini 3.1 Pro:科学推論・Web検索が得意でコスパも三モデル中最高、という評価も見かけます
  • Claude Opus 4.6:コーディングと文章の質が強み。特に日本語の自然さは個人的に今も好き

「全部制覇するモデルはまだない」という状況はしばらく続きそうなので、用途によって使い分けるのが現実的かなと思います。

使う上で気をつけたいこと

Computer Use系の機能は便利ではあるんですが、実際に試すとき気をつけたい点もあります。

① 機密情報は入力しない:AIが画面を認識・操作する仕組み上、入力した情報の扱いには注意が必要です。業務で使う場合はEnterpriseプランなど学習に使われない環境を確認してから使ったほうが無難。

② 自動実行の前に一度確認ステップを入れる:「確認なしで全部やって」よりも「ここまでやったら一度止まって報告して」という指示のほうが、予期しない操作を防ぎやすいです。

③ ハルシネーションは操作ミスに直結する:テキスト生成のときはハルシネーションが「なんか変な文章」で済みますが、PC操作だと「変なところを押した」になります。重要な操作ほど事後確認を忘れずに。

※この記事にはプロモーションが含まれます

ちなみに、Aiarty Image Enhancer(AI画像高画質化ツール。ノイズ除去・8倍拡大に対応)も気になっています。Aiarty Image Enhancer

まとめ

GPT-5.4のComputer Useは、「AIに会話で作業させる」から「AIにPCを渡す」への転換点な気がします。完全に任せるにはまだ怖い部分もあるのが正直なところですが、補助的に使うだけでもかなりの時間を削れそうな印象です。

自分もまずは定型の転記作業あたりから試してみるつもりです。実際に使ってみて気づいたことがあれば、また書いていきます。

参考になったらクリックしてもらえると嬉しいです!

Blogmura AIAI Ranking
タイトルとURLをコピーしました