AI(人工知能/ディープラーニング)

Googleの生成AIがBardからGeminiに変わりました!画像認識がすばらしいので写真をアップして「ここどこ?」と聞いてみました

この記事は約8分で読めます。

Googleの生成AIがBardからGeminiに変わりました!日本でもGoogleの生成AIがBardからGeminiに変わりました。WEBブラウザで「https://bard.google.com/」にアクセスすると「https://gemini.google.com/app/」にリダイレクトされます。
GoogleがChatGPTを上回る性能を持った生成AIとして公開されたGeminiですが、果たしてどのような性能なのでしょうか。話題になっている画像認識で性能をチェックしてみました。

Googleの生成AIがGeminiになりました

Geminiとは

Geminiは、Google AIによって開発された、最先端のマルチモーダル対話型AIです。テキストだけでなく、音声、画像、動画、コードなどのさまざまな情報を取り込み、理解することができます。

2024年2月9日から日本でも使えるようになりました。これまでGoogleのAIといえばBardでしたが、BardのWEBサイトにアクセスするとGeminiのWEBサイトにリダイレクトされるようになりました。

‎Google Gemini
Gemini is your personal, proactive, and powerful AI assistant from Google. Try it for free to help with work, school, and at home for whatever inspires you.

以下の解説はGemini自身によるGeminiの説明です。

従来のAIと比較して、Geminiは以下の点で革新的な技術を備えています。

1. マルチモーダル対応: テキストだけでなく、音声、画像、動画、コードなどの様々な情報処理が可能。
2. リアルタイムな応答: 膨大なデータセットに基づき、質問に対してリアルタイムで正確な回答を導き出す。
3. 創造的な表現: 詩、小説、脚本、音楽作品など、様々な形式の創造的なコンテンツを生成できる。
4. 言語間の翻訳: 100以上の言語間で高精度な翻訳を実現。
5. 知識の継続的な学習: ユーザーとの対話を通して知識を蓄積し、常に進化し続ける。

これらの革新的な技術により、Geminiは以下のような様々なタスクをこなすことができます。

  • 自然な会話: ユーザーと対話し、質問に答えたり、情報提供を行ったりする。
  • 情報検索: インターネット上の膨大な情報から、ユーザーのニーズに合致した情報を検索する。
  • コンテンツ作成: 詩、小説、脚本、音楽作品など、様々な形式の創造的なコンテンツを生成する。
  • 言語翻訳: 100以上の言語間で高精度な翻訳を実現する。
  • コード生成: 自然言語による指示に基づいて、Pythonなどのプログラミング言語のコードを生成する。

Geminiは現在も開発段階ですが、将来的には以下のような様々な分野での活用が期待されています。

  • 教育: 個別指導や教材作成など、教育現場での活用。
  • 医療: 診断支援や患者とのコミュニケーションなど、医療現場での活用。
  • ビジネス: 顧客対応や資料作成など、ビジネスシーンでの活用。
  • エンターテイメント: 映画やゲームの脚本作成など、エンターテイメント業界での活用。

Geminiは、私たちの生活をより豊かに、便利にする可能性を秘めた革新的なAIです。今後の更なる進化に期待が高まっています。

Geminiは画像認識がすばらしい

Geminiは「グーグルマップ」や「グーグルレンズ」とも連動しているようで画像認識の機能が秀逸です。すでにX(旧Twitter)でも話題になっています。

ためしに、いくつかの画像をGeminiにアップロードして「ここはどこ?」ということを聞いてみました。かなりの精度で正解の回答をしてくれました。これには驚きましたので紹介しておきます。

なお、Geminiにはグレードがあり、無料で使えるプランから有料で使える最上位のUltraまであります。AIモデルサイズの順に「Gemini Nano-1」「Gemini Nano-2」「Gemini Pro」「Gemini Ultra」の4つです。今回は無料プランで実施しています。

ブルーノート東京

これは瞬時に一発で正しい回答が表示されました。写真の中に「Blue Note Toyko」という文字が入っているので読み取っているのかもしれません。なおこのときアップロードした写真にはExif(位置情報など)を削除してサイズを小さくしたものをアップロードしているので画像のメタデータは利用していないはずです。

サイゼリヤ金沢駅西口店

サイゼリヤであることは画像内に「SAIZERIYA」というワインのマグナムボトルの文字があるので読み取っていれば正確性が増すはずです。しかし、サイゼリヤは日本国内だけで1500店舗ありますから場所の特定が難しいはず。
ちなみにこの画像は生の撮影画像を使いました。つまりExif(位置情報など)が残っているのでそのメタデータから場所を特定したのかもしれません。

ちなみに、このあとExif(位置情報など)を削除してサイズを小さくした画像をアップロードして質問しましたが、正確に回答しました。先にExif付きの画像をアップしたためその画像から学習していたのかもしれません。

加賀温泉駅

今度は、石川県加賀市にある加賀温泉駅のコンコースの写真を使いましたが正確に回答しました。Exifなし画像でしたが、画像内の文字を読み取って判断の材料にしているようですね。すごい。

加賀温泉駅は2024年3月16日の北陸新幹線福井延伸で新幹線が停まる駅になるため、構内では工事が続いています。この写真は1月20日に撮影したものです。

東京・上野駅の中

今回アップした写真には「人物が写っている」という理由で判定してくれませんでした。

人物の画像についてはまだ対応していません、というエラー表示でした。
逆にかんぐるとたったこれだけの人物画像で特定できるかもしれないということかもしれません。これは犯罪捜査などに利用できそうですね。

ということで、人物の部分を切り取った画像をアップしてみました。

この人の部分をきりとった不完全な画像で判定できるかどうか、興味津々ですね。

なんと、この不完全な画像で正しい回答を得ることができました。これだけで上野駅だとわかってしまうのがすごいですね。

横山駅も正確に認識しているようです

今度は私が住んでいるかほく市で最寄りのJR駅「横山駅」です。無人駅だし、雪が少し積もっているときだし、Exif情報削除してあるし、正しい回答は難しいのではないかという天邪鬼な期待をしていましたが…

なんと、正しく回答しました。これはすごいですね。

蕎麦の写真から場所を特定できるかどうか

今度は蕎麦の写真で、その蕎麦屋さんを特定できるかどうかを調べてみました。

この回答は残念ながら間違っていました。

AIの回答
AIの回答

送信された画像のそばは、石川県かほく市にある「麦の屋 高松店」のものである可能性が高いです。

麦の屋 高松店 外観の画像
他の候補は以下のとおり
  • 手打ちそば いしまる

  • そば処 大野屋

  • 手打ちそば 庄司
  • そば切り 藤吉

  • 手打ちそば 蔵

実はこの蕎麦は石川県河北郡津幡町にある「くらみつ」という蕎麦屋のものです。週末しかやっていない家族経営の小さな蕎麦屋さんなので情報が少ないのかもしれません。そこで店内写真を追加してみました。

どもども遠田
どもども遠田

上記の店舗はすべて違います。店内の写真もアップしますのでお店探しに協力おねがいします。なお、河北郡津幡町の蕎麦屋です。

AIの回答
AIの回答

ご理解いただきありがとうございます。

送っていただいた画像の店内写真から、河北郡津幡町にある「そば処くらみつ」である可能性が高いと推測されます。

そば処くらみつは、石臼挽き手打ちそばを提供する蕎麦店で、画像の店内写真と一致する特徴がいくつか見られます。

  • 店内は明るく、木の温もりを感じられる空間です。
  • テーブル席と座敷席があり、家族連れでもゆっくりと食事を楽しむことができます。
  • 窓からは、田園風景を眺めることができます。

また、そば処くらみつは、2024年2月10日現在、ランチタイムは混雑しているため、時間に余裕を持って来店することをおすすめします。

そば処くらみつの住所、営業時間、電話番号は以下のとおりです。

住所:石川県河北郡津幡町倉見ツ1−1 営業時間: [土・日・祝] 11:40〜15:00 [月・火・水・木・金] 11:40〜15:00(14:30ラストオーダー) 定休日:金曜日 電話番号:090-3764-9924

ここで正解がでました。なんとインスタグラムの画像情報から導き出しているようです。

どもども遠田
どもども遠田

そば処くらみつ、そうです、ここです。
ありがとうございます。

AIの回答
AIの回答

お役に立てて嬉しいです。

そば処くらみつは、石臼挽き手打ちそばが評判の老舗店です。

店内写真から、落ち着いた雰囲気でゆっくりと食事を楽しめそうな空間であることが伝わってきます。

私も一度、そば処くらみつのそばを味わってみたいと思います。

河北郡津幡町で美味しいそばをお探しの方には、ぜひそば処くらみつをおすすめします。

最後は「私も食べたい」というなんともおちゃめな回答でした。にくいですね。

Genimiは高性能な対話型AIですね

ということでGeminiの画像認識性能はかなりすごいということがわかりました。マルチモーダルな対話型AIなので何度も質問と回答を繰り返すことで期待する答に近づくことができますね。

さらにGeminiのバージョンが1.5に上がったようで、続々と解説記事が出てきました。

次世代モデル、 Gemini 1.5 を発表
膨大な量の情報とモダリティの高度な理解ができる、最新モデルの Gemini 1.5 が登場。
【Gemini 1.5 Pro】100万トークン対応のGoogle最強LLMをGPT-4oと比較してみた | WEEL
WEELメディア事業部AIライターの2scです。 みなさん、GoogleがUltra 1.0の発表からわずか1週間で、Geminiの最新版を発表しました。それが、1,000,000トークンまで入力できちゃう「Gemini 1.5 Pro」で

今後もGoogleのAIに関する動向には注目していきたいと思います。

スマホでGeminiが使えるようになりました

スマホでもGoogleのGeminiが使えるようになりました、なんとアプリはこれまでのGoogleアプリで星マークをタップするとGeminiになります
スマホでもGoogleのGeminiが使えるようになりました。専用のアプリがあるかと思っていたら、既存のGoogleアプリでGeminiが使えるようになっていました。これには意表を突かれました。なんと、GoogleアプリのGoogleマークの横にGeminiの星印のマークがあり、そのマークをタップするとGeminiの画面に切り替わります。

スマホのGoogleアプリの中でGeminiが使えるようになりました。