AI(人工知能/ディープラーニング)

ChatGPT 5.2で画像生成を試しGeminiと比較した記録(能登復興支援シーンを生成した事例比較)

この記事は約4分で読めます。

ChatGPTで画像生成ChatGPTが5.2になり、画像生成能力も上がったと聞いたので、ちょっとしたベンチマークとしてChatGPTとGeminiで同一プロンプトの比較をしてみました
題材にしたのは、能登半島地震後の被災地で、産廃業者さんが復興支援に関わる一連のシーンです。現場感や人の気持ちが伝わる絵が作れるか、そして指示した条件がどれだけ守られるかを見たかったからです。

ChatGPTの画像生成能力の現在地を分析

比較の前提条件(ルール)

今回の比較は「画像生成のみ」です。

  • 同一プロンプトで生成して比較する

  • 追加修正は必要に応じて行うが、まずは一発目の出力も重視する

  • 評価は主観(使い手の体感)であり、普遍的な優劣の断定はしない
    ※文章生成、検索、要約、アイデア出し等の能力は別軸で評価が必要です

まず結論を急がずに言えること(画像生成に限定)

今回の範囲で私が感じたのは、次の2点です。

  • ChatGPT 5.2は「絵としての完成度」が上がっていて、表情や雰囲気はかなり作りやすくなった

  • ただし「日本の現場あるある」(右ハンドルなど)を条件として固定したいとき、思ったより揺れる場面があった

ここは、モデルの得意不得意というより「条件を守る種類の指示が、どの程度安定して反映されるか」の話に近いです。

事例1:トラック運転シーン(右ハンドルが崩れた)

今回の比較に使ったプロンプトは次のとおりです。

「次は、トラックを運転している社長の姿が、トラックのフロントガラス越しに見えて、静かに喜んでいる地元の方々も一緒に映ってあるシーンを生成してください」

このプロンプトで生成された2枚の画像は以下のとおりです。

ChatGPTで生成した画像

ChatGPTで画像生成

  • シーンとしては成立していて、運転している社長の表情も良い

  • ただ、トラックが左ハンドルになってしまった

  • そこで「日本では右ハンドルですよ」と追加修正を何度か試したものの、意図どおりに直りきらないケースがありました

このあたりは、実務的には地味に効きます。なぜなら「復興支援の現場を日本の文脈で伝える」という目的だと、右ハンドルの違和感は読む人が気づきやすいからです。

Geminiで生成した画像

Geminiで画像生成

  • 同じ意図のシーンで、右ハンドルの配置が自然に出た(少なくとも今回の出力では)

  • 住民側の感情表現も、手を振る・拍手などで読み取りやすく整理されていました

ただし、これも今回の題材・指示・出力における観察であって、常にそうなると断定するものではありません。

生成画像ギャラリー

パワーショベル運転シーン

まず一番最初に作成したのがこの画像です。

▼プロンプト
能登半島地震の被害を受けた奥能登の珠洲市で復興支援をする産廃業者さんがパワーショベルを運転する様子の画像を生成してください

▼ChatGPTで生成した画像

▼Geminiで生成した画像

  • ねらい:重機の操作や現場の安全装備(ヘルメット、反射ベスト等)がどの程度自然に出るか

  • 見たポイント:装備の整合性、背景の被災地表現、人物の手元の自然さ

  • ひとことメモ:この段階では甲乙つけがたい印象です。これまでのChatGPTではこのクオリティが出なかったのでGeminiに追いついたのかなと思いました。

トラックに乗り込むシーン

次に生成したのがこの「トラックに乗り込むシーン」の画像です。ここで大きな差がでました。

▼プロンプト
いいですね、次のシーンはこの産廃業者さんがトラックに乗り換えて産廃を運ぶために、運転席に乗り込もうとするシーンで生成してください

▼ChatGPTで生成した画像

▼Geminiで生成した画像

  • ねらい:最初に生成した画像との一貫性がどこまで保てるか

  • 見たポイント:ドア位置、運転席位置、カメラの距離感

  • ひとことメモ:そもそも右ハンドルと左ハンドルの違いが出るということが想定外でした。Geminiでは自然に日本にあわせて右ハンドルのトラック画像を生成しましたが、ChatGPTでは左ハンドルのトラックしか生成できませんでした。
    また、ChatGPTでは何度か「日本では右ハンドルですから変更してください」という意味のプロントで再生成を試しましたが修正できませんでした。

使い分けメモ

今回の範囲での私の使い分けメモはこんな感じです。

  • 条件が厳密な素材(右ハンドル、日本の道路文脈、現場装備の整合性など)
    → 最初から条件を強めに書く、出力が安定する方を試す、という運用が安心

  • 雰囲気や物語性(表情、空気感、被災地と支援者の関係性)
    → ChatGPT 5.2も十分強く、狙った感情の絵が作りやすくなってきた印象

ここで大事なのは、「どちらが上か」を決めることより、用途に応じて当たりを引く確率を上げることだと思います。

画像生成についてのまとめ

2025年12月19日時点の画像生成だけに限って言うと、ChatGPT 5.2は確実に進化していて、人物や空気感の表現は頼もしくなってきました。

一方で今回の能登復興支援シーンのように、日本の生活文脈(右ハンドルなど)を外したくない場面では、出力の安定性に差を感じるケースがありました。Geminiのほうが安心して使える感じですね。

この先、追加の生成画像も記事に挿入しながら、「どんな条件で差が出やすいのか」をもう少し具体的に整理していこうと思います。