AI(人工知能/ディープラーニング)

AIを活用したプログラム修正の比較 ~より安定したコードを書くのはどっち?~

この記事は約4分で読めます。

コード生成するAI比較最近は、AI(人工知能)にお願いして、パソコンのプログラムを書いたり直したりしてもらうことが増えてきました。今回は、Googleのサービスを便利に自動化する「GAS(Google Apps Script)」というプログラムの修正を、2つのAIにお願いして比較した結果をご紹介します。
実際に私が利用している生成AI(有料版)は、GoogleのGemini、Claud、ChatGPTの3つで、コード修正に関してはこれまで主にGeminiを利用していました。しかし、今回の結果はClaudが圧倒的に高品質なコード出力をしてくれました。ちょっとした驚きです。

ノーコード時代なので一行もコードを書かずにプログラムを作っていました

コードを書くのも評価するのもAIです

コードを書くのも評価するのもAI

昨年あたりから、エンジニアでもない私もプログラムを作成するようになりました。それはAIがコードを書いてくれるからです。私自身は一行もコードを書きませんがプログラムを作ることができるようになってきました。

そしてそのプログラムコードを評価したり修正したりするのAIです。つまりAIが作りAIが評価することで、ノーコード開発ができるわけですね。

GAS:GoogleAppsScript

GASはGoogleが提供しているスクリプトです。JAVA形式で記述する「Google Apps Script」のことを指すことが多いですが、ノーコードで記入できる「Google App Sheet」もGASといわれています。
簡易な開発案件ならGASで可能になりました。エクセルのような仕様なら、IT事業者に外注しなくても社内で開発し運用することも可能です。

私は、GAS(Google Apps Script)を使いプログラム的なことやアプリを作成しています。これまでGASでの開発にはほぼGeminiを使っていました。GASもGeminiも同じGoogleのサービスなので相性がよいと思っていたからです。

プログラムが抱えていた3つの困りごと

今回直したかったのは、ブログ記事の品質をチェックするGASのアプリです。

GASとGeminiで作る「記事品質管理のダッシュボード」でブログ記事の定期的な品質チェックとアクセス解析をセットで管理できます
毎日のブログ更新、ただ書くだけになっていませんか?「この記事は本当にユーザーのためになっているのか?」「検索流入につながる品質を満たしているのか?」を毎日手動で分析するのは、時間も手間もかかります。そこで今回、Google Apps Scr...

とても便利に使っていたものの、次のようなちょっとした不具合に困っていました。

  • 最新記事が取得できない:アプリを立ち上げたときに、最新記事のデータをうまく読み込めない。

  • URLが反映されない:最新記事のURLを入力する場所(セル)があるのに、うまくシステムに反映されない。

  • 自動動作が不安定:決まった時間に自動で動く仕組み(トリガー)を使ったアクセス解析の動作に不安がある。

2つのAI(GeminiとClaude)に修正を依頼

そこで、「これらの不具合を改善できますか?」というお願い(プロンプト)を、Gemini(ジェミニ)とClaude(クロード)という2つの代表的なAIに投げてみました。

そして、それぞれが新しく書き直してくれたプログラムのコードを、さらに別のAIであるChatGPT(チャットジーピーティー)に読み込ませて、「どちらのエラーが少なく、安定して稼働できそうか」を客観的に評価してもらいました。

生成コードの比較

ChatGPTに入力したプロンプトは以下のとおりです。

このGASアプリでは、ブログ記事の品質チェックをしていますが、ちょっとした不具合があり困っています。
・アプリを立ち上げたときに最新記事の取得がうまくいかないこと
・最新記事のURLを入力するセルがあるもののうまく反映されないこと
・トリガーで動作するアクセス解析の動作に不安があること などです。
改善できますか?
というプロンプトをGeminiとClaudに投げて、修正したもらったコードgsがこの2つです。

どちらのコードのほうがエラーが少なく安定して稼働できそうかを評価してください。

さてこの回答が意外な結果になりました。

驚きの評価結果!安定のClaude、機能のGemini

ChatGPTによる総合評価の結果は、それぞれのAIの特徴がはっきりと表れる大変興味深いものになりました。

  • 安定性やエラーに対する強さ Claudeのコードは、エラーへの強さ(エラー耐性)、自動で動く仕組み(トリガー運用)、データの安全性などのすべての項目で「二重丸(◎)」という非常に高い評価を受けました。一方、Geminiのコードはこれらの項目で「三角(△)」という結果になりました。

  • 機能の多さ 反対に、機能の豊富さという点では、Geminiのコードが「二重丸(◎)」を獲得し、Claude(◯)を上回りました。

【評価のまとめ】 今回のブログ記事チェックアプリの修正においては、Claudeの回答(コード)のほうが、エラーが少なく安定して稼働するという点で、圧倒的に品質が高いということがわかりました。

Claudで修正したコード

今回は最終的にClaudで修正したコードを採用しました。最後の解説も親切です。

生成AIの性能評価は毎日のように変わります

AIにはそれぞれ得意・不得意があります。しかも生成AIの機能開発競争はますます激しくなっています。ですから、毎日のように性能評価が変わっており、現段階でどの生成AIの性能が一番良いのか、ということがわかりにくくなっています。

多機能でアイデアの詰まったものを作りたいときはGemini、エラーをなくして安全・確実に動かしたいときはClaudeといったように、目的に合わせてAIを使い分けるのが賢い活用方法と言えそうです。

皆さんも、プログラムの作成や修正に迷ったときは、ぜひ複数のAIを試して比較してみてくださいね。