ChatGPTが5.2になり、画像生成能力も上がったと聞いたので、ちょっとしたベンチマークとしてChatGPTとGeminiで同一プロンプトの比較をしてみました。
題材にしたのは、能登半島地震後の被災地で、産廃業者さんが復興支援に関わる一連のシーンです。現場感や人の気持ちが伝わる絵が作れるか、そして指示した条件がどれだけ守られるかを見たかったからです。
ChatGPTの画像生成能力の現在地を分析
比較の前提条件(ルール)
今回の比較は「画像生成のみ」です。
-
同一プロンプトで生成して比較する
-
追加修正は必要に応じて行うが、まずは一発目の出力も重視する
-
評価は主観(使い手の体感)であり、普遍的な優劣の断定はしない
※文章生成、検索、要約、アイデア出し等の能力は別軸で評価が必要です
まず結論を急がずに言えること(画像生成に限定)
今回の範囲で私が感じたのは、次の2点です。
-
ChatGPT 5.2は「絵としての完成度」が上がっていて、表情や雰囲気はかなり作りやすくなった
-
ただし「日本の現場あるある」(右ハンドルなど)を条件として固定したいとき、思ったより揺れる場面があった
ここは、モデルの得意不得意というより「条件を守る種類の指示が、どの程度安定して反映されるか」の話に近いです。
事例1:トラック運転シーン(右ハンドルが崩れた)
今回の比較に使ったプロンプトは次のとおりです。
「次は、トラックを運転している社長の姿が、トラックのフロントガラス越しに見えて、静かに喜んでいる地元の方々も一緒に映ってあるシーンを生成してください」
このプロンプトで生成された2枚の画像は以下のとおりです。
ChatGPTで生成した画像

-
シーンとしては成立していて、運転している社長の表情も良い
-
ただ、トラックが左ハンドルになってしまった
-
そこで「日本では右ハンドルですよ」と追加修正を何度か試したものの、意図どおりに直りきらないケースがありました
このあたりは、実務的には地味に効きます。なぜなら「復興支援の現場を日本の文脈で伝える」という目的だと、右ハンドルの違和感は読む人が気づきやすいからです。
Geminiで生成した画像

-
同じ意図のシーンで、右ハンドルの配置が自然に出た(少なくとも今回の出力では)
-
住民側の感情表現も、手を振る・拍手などで読み取りやすく整理されていました
ただし、これも今回の題材・指示・出力における観察であって、常にそうなると断定するものではありません。
生成画像ギャラリー
パワーショベル運転シーン
まず一番最初に作成したのがこの画像です。
▼プロンプト
能登半島地震の被害を受けた奥能登の珠洲市で復興支援をする産廃業者さんがパワーショベルを運転する様子の画像を生成してください
▼ChatGPTで生成した画像

▼Geminiで生成した画像

-
ねらい:重機の操作や現場の安全装備(ヘルメット、反射ベスト等)がどの程度自然に出るか
-
見たポイント:装備の整合性、背景の被災地表現、人物の手元の自然さ
-
ひとことメモ:この段階では甲乙つけがたい印象です。これまでのChatGPTではこのクオリティが出なかったのでGeminiに追いついたのかなと思いました。
トラックに乗り込むシーン
次に生成したのがこの「トラックに乗り込むシーン」の画像です。ここで大きな差がでました。
▼プロンプト
いいですね、次のシーンはこの産廃業者さんがトラックに乗り換えて産廃を運ぶために、運転席に乗り込もうとするシーンで生成してください
▼ChatGPTで生成した画像
▼Geminiで生成した画像

-
ねらい:最初に生成した画像との一貫性がどこまで保てるか
-
見たポイント:ドア位置、運転席位置、カメラの距離感
-
ひとことメモ:そもそも右ハンドルと左ハンドルの違いが出るということが想定外でした。Geminiでは自然に日本にあわせて右ハンドルのトラック画像を生成しましたが、ChatGPTでは左ハンドルのトラックしか生成できませんでした。
また、ChatGPTでは何度か「日本では右ハンドルですから変更してください」という意味のプロントで再生成を試しましたが修正できませんでした。
使い分けメモ
今回の範囲での私の使い分けメモはこんな感じです。
-
条件が厳密な素材(右ハンドル、日本の道路文脈、現場装備の整合性など)
→ 最初から条件を強めに書く、出力が安定する方を試す、という運用が安心 -
雰囲気や物語性(表情、空気感、被災地と支援者の関係性)
→ ChatGPT 5.2も十分強く、狙った感情の絵が作りやすくなってきた印象
ここで大事なのは、「どちらが上か」を決めることより、用途に応じて当たりを引く確率を上げることだと思います。
画像生成についてのまとめ
2025年12月19日時点の画像生成だけに限って言うと、ChatGPT 5.2は確実に進化していて、人物や空気感の表現は頼もしくなってきました。
一方で今回の能登復興支援シーンのように、日本の生活文脈(右ハンドルなど)を外したくない場面では、出力の安定性に差を感じるケースがありました。Geminiのほうが安心して使える感じですね。
この先、追加の生成画像も記事に挿入しながら、「どんな条件で差が出やすいのか」をもう少し具体的に整理していこうと思います。

この記事を書いた遠田幹雄は中小企業診断士です
遠田幹雄は経営コンサルティング企業の株式会社ドモドモコーポレーション代表取締役。石川県かほく市に本社があり金沢市を中心とした北陸三県を主な活動エリアとする経営コンサルタントです。
小規模事業者や中小企業を対象として、経営戦略立案とその後の実行支援、商品開発、販路拡大、マーケティング、ブランド構築等に係る総合的なコンサルティング活動を展開しています。実際にはWEBマーケティングやIT系のご依頼が多いです。
民民での直接契約を中心としていますが、商工三団体などの支援機関が主催するセミナー講師を年間数十回担当したり、支援機関の専門家派遣や中小企業基盤整備機構の経営窓口相談に対応したりもしています。
保有資格:中小企業診断士、情報処理技術者など
会社概要およびプロフィールは株式会社ドモドモコーポレーションの会社案内にて紹介していますので興味ある方はご覧ください。
お問い合わせは電話ではなくお問い合わせフォームからメールにておねがいします。新規の電話番号からの電話は受信しないことにしていますのでご了承ください。

【反応していただけると喜びます(笑)】
記事内容が役にたったとか共感したとかで、なにか反応をしたいという場合はTwitterやフェイスブックなどのSNSで反応いただけるとうれしいです。
遠田幹雄が利用しているSNSは以下のとおりです。
facebook https://www.facebook.com/tohdamikio
ツイッター https://twitter.com/tohdamikio
LINE https://lin.ee/igN7saM
チャットワーク https://www.chatwork.com/tohda
また、投げ銭システムも用意しましたのでお気持ちがあればクレジット決済などでもお支払いいただけます。
※投げ銭はスクエアの「寄付」というシステムに変更しています(2025年1月6日)
※投げ銭は100円からOKです。シャレですので笑ってご支援いただけるとうれしいです(笑)

