Veo 3.1で音声付き動画をAI生成｜Geminiから使えるプロンプトのコツ

最近Veo 3.1をちょこちょこ触っていて、「これは記事にしておきたいな」と思ったのでまとめておきます。

Veo 3.1はGoogle DeepMindが開発した動画生成AIモデルで、テキストや画像を入力するだけで音声付きの高精細な映像が生成できます。動画生成AI自体は以前からありましたが、音声まで一括生成できる点がなかなか衝撃でした。

この記事でわかること
Veo 3.1ってどこで使える？
Veo 3.1の最大の特徴：音声が一緒に生成される
プロンプト作成で意識するといいこと
実際に使ってみての注意点
まとめ

この記事でわかること

Veo 3.1はGeminiから無料ではなく有料プランで利用できる
プロンプトでカメラワークと音声内容を指定するのが重要
8秒という短い尺が制約になることもある
実際に使ってわかったプロンプト作成のコツ

Veo 3.1ってどこで使える？

GeminiのチャットUI上から使えます。入力欄のあたりに「動画」ボタン（ツールメニュー内の「create video」）があるので、そこを押してプロンプトを入れるだけ。ただしGoogle AI Plus/Pro/Ultraプランへの加入が必要です。無料プランの扱いは時期や提供状況で変わる可能性があるので、もしボタンが出てこなければプラン状況を確認するのが安全です。

生成時間は体感だと数十秒〜1分程度かかることが多いです。Veo 3.1 Fastという高速版もあって、クオリティは落ちますが速く返ってくるので、確認用途にはFastを使うのがよさそうです。

Veo 3.1の最大の特徴：音声が一緒に生成される

これが本当におもしろくて、会話・BGM・効果音・環境音が動画と一緒に出てきます。しかもリップシンク（口の動きと音声の同期）もそれっぽく合わせてくれることが多い印象です。

たとえば「カフェで女性が友人に話しかけている」みたいなプロンプトを入れると、背景のカフェBGM＋会話音声＋環境音がちゃんと乗っかった映像が生成されます。以前は別々のツールで編集する必要があったので、ワークフローとしてかなり変わりました。

プロンプト作成で意識するといいこと

① カメラワークを指定する

何も書かないと無難な構図になりがちです。「スローモーション」「ズームイン」「タイムラプス」「ローアングルから見上げる」など、カメラの動きをプロンプトに含めると一気に映像っぽくなります。

英語プロンプトのほうが精度が高い印象がありますが、日本語でも十分通じます。「cinematic shot」「close-up」といった映像用語は英語で入れるとより意図が伝わりやすいかもしれません。

② 音声の内容も書く

「男性が『これが答えだ』とつぶやく」のように台詞や音の内容を書くと、その通りの方向性で音声が生成されやすいです。映像だけ指定するよりも、音声込みで設計したほうが完成度が上がります。ここは個人的に一番試してほしいポイントです。

③ 短く・具体的に書く

あれもこれも詰め込みすぎると解釈がブレる印象があります。「被写体・シチュエーション・カメラワーク・雰囲気」の4点を軸に、1〜3文でまとめるとちょうどいいくらい。この構成はChatGPTの画像生成プロンプトにも似た感覚で書けます。

実際に使ってみての注意点

Gemini上で作る動画は8秒という尺なので、長尺コンテンツには不向きです。また人物の手の描写がたまにおかしくなることがあり、この辺はまだ発展途上かもしれません。

ちなみにGemini/Vertex AIのAPIからも使えるので（veo-3.1-generate-preview というモデルID）、自動化に組み込みたい人はそちらを触ってみるのもいいと思います。

※この記事にはプロモーションが含まれます

ちなみに、Aiarty Image Enhancer（AI画像高画質化ツール。ノイズ除去・8倍拡大に対応）も気になっています。Aiarty Image Enhancer

まとめ

Veo 3.1は「音声込みで動画が作れるAI」という認識で入ってみると、想像よりだいぶ使えます。プロモーション素材の試作やSNS用のショート動画のラフ作成といった用途には十分活用できそうです。まだ触っていない方はGeminiから試してみてください。

参考になったらクリックしてもらえると嬉しいです!