GPT-4oの画像生成、思ったより全然使えた話

ずっと「画像生成はMidjourneyとかStable Diffusionの領域でしょ」と思ってたんですが、GPT-4oに統合された画像生成機能（4o Image Generation）をちゃんと触ってみたら、普通に便利すぎて考えが変わりました。

余談ですが、最初はあまり期待せず使い始めたので、最初の出力を見たときちょっとだけ声が出ました。

何が変わったのか

以前はChatGPTで画像を作ろうとすると、内部的にDALL-Eが動いていて、なんとなくチャット体験と分断されてる感じがありました。「これ、ChatGPTじゃなくてDALL-Eだよな…」みたいな。

GPT-4o統合の画像生成では、その分断がなくなって、普通の会話の流れで「じゃあこの画像もちょっと修正して」ができるようになってます。対話画面がそのまま画像生成スタジオになる感じで、ワークフローがシンプルになりました。

従来のAI画像生成って、テキストを画像の中に入れようとすると高確率でグチャグチャになるのが定番でした（「cafe」が「Cqfe」になるやつ）。

GPT-4oだと、これがかなり改善されています。たとえば：

こういったものが、追加の画像編集ツールなしにChatGPT上でほぼ完結します。100%完璧ではないですが、「使えるレベル」には確実に来てます。

「レトロな喫茶店の雰囲気で、夕方の窓際、少し埃っぽい感じ」みたいな、わりとふわっとした指示でも意図通りに近いものが出てきます。以前のモデルだとここまでニュアンスを拾ってくれなかったので、プロンプトの書き方がラクになりました。

「写真風」「水彩イラスト風」「フラットデザイン」「ドット絵風」などをプロンプトの末尾に足すだけで、方向性がかなり変わります。迷ったらとりあえずスタイル指定を入れておくと、ブレが減る印象です。

「もう少し明るくして」「背景を透過にして」「左上のテキストを○○に変えて」といった修正指示を、そのままチャットで続けられるのが地味に便利です。別ツールを開かなくていいのは思ったよりストレスが減ります。

個人的に「これは使えるな」と思ったシーンをざっと列挙すると：

デザイン専業の方がガッツリ使うというより、「サクッと雰囲気のある画像がほしい」場面で重宝する感じです。

専用の画像生成ツールと比べると細かいコントロールは劣る部分もあるかもしれません。ただ、「ChatGPTを開いたまま、会話の延長で画像も作れる」という体験はやっぱり楽で、ちょっと画像が欲しいたびに別サービスを起動する手間がなくなります。

テキスト描画の強さはかなり独自の強みだと思うので、文字入り画像を作りたい場面では特に試してみる価値ありです。自分はとりあえずブログ用のアイキャッチはここ最近これで作ってます。

参考になったらクリックしてもらえると嬉しいです!