利用しているAIがどれくらい賢いのかを測定したことがありますか?まず、そのAIを日常的に利用する前にベンチマークテストをすることをお勧めます。
たとえば、2025年8月から使えるようになったOpenAIのオープンソース版の「gpt-oss-20b」は、普通のChatGPTと比べてどれくらい賢いのでしょうか?事前に調べて性能を知っておくことが大事です。
AIの性能を測定するためのベンチマークテスト
あなたのローカルAI、性能を測ってみませんか?ベンチマーク用プロンプトと評価方法を徹底解説
ローカル環境でAIを動かし始めると、誰もが一度はこう思うのではないでしょうか。 「このモデル、本当に賢いのかな?」「別のモデルと比べてどっちが優秀なんだろう?」
感覚的に「なんとなく賢い」と感じるだけでは、性能を客観的に評価することはできません。特に、LM Studioなどでモデルや設定を細かく調整している方なら、その変更がどのような影響を与えたのかを具体的に知りたくなるはずです。

例えば、今月から使えるようになったChatGPTのオープンソース版「gpt-oss-20b」はどれくらい賢いのかを調べるためにはどうするか?
この記事では、あなたのローカルAIの真の実力を測るための「ベンチマーク用プロンプト」と、その回答を定性的・定量的な両面から評価するための具体的な視点を徹底解説します。
なぜベンチマークが重要なのか?
生成AIの性能は、一つの指標だけでは測れません。あるモデルは論理パズルが得意でも、創造的な文章は苦手かもしれません。また、別のモデルは非常に高速に応答するけれど、情報の正確性に欠けるかもしれません。
ベンチマークを行うことで、あなたが使っているAIモデルの得意なこと・苦手なことが明確になり、用途に合わせた最適なモデル選択や設定の最適化に繋がります。
性能を測るための5つのベンチマークプロンプト
ここでは、AIの多様な能力を測るために5つのカテゴリに分けたプロンプト例をご紹介します。
ここでは「①推論・論理力」「②創造性・文章生成能力」「③長文読解・要約能力」「④コード生成能力」「⑤知識・正確性」の5つのカテゴリに分けて、それぞれの能力を試すプロンプトを挙げます。
ぜひ、ご自身の環境でコピー&ペーストして試してみてください。
① 推論・論理力を試すプロンプト
AIが単なるパターン認識だけでなく、ルールに基づいた思考ができるかをテストします。
プロンプト例:論理パズル
太郎、次郎、三郎の3人がいる。彼らはそれぞれ「正直者(常に本当のことを言う)」「嘘つき(常に嘘を言う)」「気まぐれ(本当のことと嘘をランダムに言う)」のいずれかである。3人の発言は以下の通り。
太郎:「私は正直者ではない。」
次郎:「私は気まぐれではない。」
三郎:「私は嘘つきだ。」
この発言から、それぞれの役職(正直者、嘘つき、気まぐれ)を特定し、その論理的な導出過程を説明してください。
【このテストの解説】 このプロンプトは、AIの純粋な論理的推論能力を評価するために設計されています。複数の制約(各人の発言と役職のルール)を同時に記憶し、矛盾が生じないように一つずつ可能性を検証していく必要があります。優れたモデルは、正解を導くだけでなく、「もし〇〇が正直者だと仮定すると、△△の発言と矛盾する。したがって〇〇は正直者ではない」といった形で、その思考プロセスを明確かつ論理的に説明することができます。これは、AIの知性の根幹をなす能力を測るための重要なテストです。
② 創造性・文章生成能力を試すプロンプト
指示された制約の中で、どれだけ自然で創造的な文章を生成できるかをテストします。
プロンプト例:制約付きショートストーリー
以下の5つの単語をすべて使って、150字程度の短い物語を創作してください。
【単語】
月、古い椅子、コーヒー、鍵、ささやき
【このテストの解説】 このテストは、AIが学習データを単に再生するのではなく、新しい文脈を創造する能力を評価します。一見関連性のない単語群を、自然な物語の中に違和感なく組み込むには、高度な言語センスと想像力が求められます。
評価のポイントは、単語が機械的に配置されているのではなく、物語の雰囲気やプロットの重要な要素として機能しているかどうかです。ありきたりな展開ではなく、読者が少し驚くような独創的なストーリーを生成できるモデルは、創造性が高いと判断できます。
③ 長文読解・要約能力を試すプロンプト
長い文章を記憶し、その内容に基づいて応答できるかをテストします。ローカル環境のメモリやコンテキスト長の設定が性能に直結します。
プロンプト例:長文の要約と特定情報の抽出
以下のニュース記事を読んで、後の質問に答えてください。
---
【記事本文】
株式会社NextGen Dynamicsは、本日8月17日、画期的なエネルギー貯蔵ソリューション「QuantumCell」を発表した。この新技術は、従来のグラフェンベースのバッテリーと比較して、エネルギー密度を5倍に高めることに成功。さらに、充放電サイクル寿命は20,000回を超え、ほぼ劣化しない性能を誇る。開発は、同社の東京研究所に所属する山本博士率いるチームが主導した。山本博士は「この技術は、電気自動車の航続距離を飛躍的に伸ばすだけでなく、家庭用蓄電システムやスマートグリッドの安定化にも貢献するだろう」と語った。製品の初期ロットは、2026年初頭に法人向けに出荷が開始される予定で、一般消費者向けの製品は2027年以降に市場投入される見込みだ。製造コストは依然として高いものの、同社は量産効果によって今後3年以内に現行のリチウムイオンバッテリーと同等のコストまで引き下げることを目指している。
---
質問:
1. この記事の内容を3つの箇条書きで要約してください。
2. この新技術の名前は何ですか?
3. 一般消費者はいつからこの技術を利用した製品を手に入れられますか?
4. 開発チームのリーダーは誰ですか?
【このテストの解説】 これはAIの「ワーキングメモリ(作業記憶)」の性能を直接的に測るテストです。特にローカル環境では、モデルが一度に扱える情報量(コンテキストウィンドウ)が性能を大きく左右します。
このテストでは、文章全体を正確に記憶し、要約のような全体を俯瞰するタスクと、特定の情報をピンポイントで抜き出すタスクの両方を正しくこなせるかが問われます。文章の末尾の情報だけでなく、冒頭や中盤に出てくる固有名詞や数値を正確に答えられるかが、長文読解能力の高さを判断する重要な指標となります。
④ コード生成能力を試すプロンプト
簡単な仕様に基づいて、特定のプログラミング言語でコードを生成する能力をテストします。
プロンプト例:Pythonの関数生成
Pythonで、引数として受け取った整数のリストの中から、偶数だけを抽出し、それらを2乗した新しいリストを返す関数を書いてください。
関数名は `process_numbers` としてください。
【このテストの解説】 このプロンプトは、AIが人間の曖昧な自然言語(日本語)を、厳密なルールを持つ形式言語(プログラミング言語)に翻訳する能力を評価します。「偶数だけを抽出し」「2乗したリストを返す」といった複数の要求を正しく理解し、それを実行可能なコードに落とし込めるかがポイントです。
優れたモデルは、単に動くだけのコードではなく、変数名が分かりやすかったり、Pythonらしい効率的な書き方(リスト内包表記など)を提案してくれたりします。開発支援ツールとしての実用性を測る上で欠かせないテストです。
⑤ 知識・正確性を試すプロンプト
モデルが持つ知識の幅と、その情報の正確性(ハルシネーション=幻覚を起こさないか)をテストします。
プロンプト例:歴史的な事実確認
日本の江戸時代における「参勤交代」の目的と、それが社会経済に与えた影響について、具体的に説明してください。
【このテストの解説】 このテストの目的は、AIの信頼性を測ることです。AIは時として、事実ではない情報を事実であるかのように自信満々に語る「ハルシネーション(幻覚)」を起こします。このプロンプトでは、広く知られている歴史的な事実について、どれだけ正確な情報を提供できるかを評価します。
重要なのは、主要な目的(大名の統制など)と、それに付随する経済的・文化的影響(街道の整備、文化の伝播など)を、バランス良く、かつ正確に説明できるかです。知らない情報に対して曖昧にぼかしたり、もっともらしい嘘をついたりするモデルは、信頼性が低いと評価できます。
AIの回答をどう比較・評価するか?
プロンプトを実行したら、次はその回答を評価するフェーズです。ここでは「定性評価」と「定量評価」の2つの視点から、比較・評価のポイントを解説します。
【定性評価】回答の「質」を評価する
定性評価は、数値では測れない回答の品質を評価するアプローチです。以下のポイントに注目してみましょう。
- 論理の一貫性と妥当性
- (論理パズルで)説明された思考プロセスに矛盾はないか?
- 話の筋が通っており、飛躍した結論になっていないか?
- 自然さと創造性
- (文章生成で)人間が書いたような自然な文章か?不自然な言い回しはないか?
- ありきたりな表現ではなく、独創的なアイデアや比喩が含まれているか?
- 指示への忠実度
- 「〇〇という単語を使って」「箇条書きで3つ」といった指示や制約をすべて守れているか?
- 質問の意図を正しく理解し、的を射た回答になっているか?
- 情報の正確性とハルシネーション
- (知識を問う質問で)事実に反する情報(ハルシネーション)を生成していないか?
- 知らないことに対して、正直に「不明です」と答えられるか、それとももっともらしい嘘をつくか?
【定量評価】数値で性能を測る
定量評価は、客観的な数値で性能を比較するアプローチです。ローカルAIの性能を測る上で特に重要です。
- 応答速度
- 総生成時間: プロンプトを送信してから、回答がすべて表示されるまでの時間を計測します。ストップウォッチで簡単に測れます。
- 体感速度 (Time to First Token): 最初の1文字が表示されるまでの時間。これが速いと、ユーザーは「サクサク動く」と感じやすいです。
- リソース使用量
- LM Studioやタスクマネージャーで、推論中のRAM(メモリ)とVRAM(GPUメモリ)の使用量を確認します。同じ性能なら、リソース使用量が少ないモデルの方が効率的です。
- 出力の形式的正確さ
- 「箇条書きで3つ」という指示に対し、実際に3つ出力できたか?(できた/できない)
- (コード生成で)生成されたコードは、エラーなく実行できるか?(できる/できない)
評価をまとめる
これらの評価軸を使って、スプレッドシートなどに結果をまとめていくことをお勧めします。例えば、各プロンプトに対してモデルごとに5段階評価を付け、速度やメモリ使用量を記録していくと、自分だけの性能比較表が完成します。
まとめ
今回は、ローカルAIの性能を測るための具体的なベンチマークプロンプトと、その評価方法について解説しました。
重要なのは、単一の指標でモデルの優劣を決めつけないことです。あなたの目的(プログラミング補助、文章作成、アイデア出しなど)に応じて、どの性能を重視するかは変わってきます。
この記事で紹介したプロンプトをベースに、ぜひご自身の用途に合わせたベンチマークを作成し、あなただけの最強のローカルAI環境を構築してみてください。

この記事を書いた遠田幹雄は中小企業診断士です
遠田幹雄は経営コンサルティング企業の株式会社ドモドモコーポレーション代表取締役。石川県かほく市に本社があり金沢市を中心とした北陸三県を主な活動エリアとする経営コンサルタントです。
小規模事業者や中小企業を対象として、経営戦略立案とその後の実行支援、商品開発、販路拡大、マーケティング、ブランド構築等に係る総合的なコンサルティング活動を展開しています。実際にはWEBマーケティングやIT系のご依頼が多いです。
民民での直接契約を中心としていますが、商工三団体などの支援機関が主催するセミナー講師を年間数十回担当したり、支援機関の専門家派遣や中小企業基盤整備機構の経営窓口相談に対応したりもしています。
保有資格:中小企業診断士、情報処理技術者など
会社概要およびプロフィールは株式会社ドモドモコーポレーションの会社案内にて紹介していますので興味ある方はご覧ください。
お問い合わせは電話ではなくお問い合わせフォームからメールにておねがいします。新規の電話番号からの電話は受信しないことにしていますのでご了承ください。
【反応していただけると喜びます(笑)】
記事内容が役にたったとか共感したとかで、なにか反応をしたいという場合はTwitterやフェイスブックなどのSNSで反応いただけるとうれしいです。
遠田幹雄が利用しているSNSは以下のとおりです。
facebook https://www.facebook.com/tohdamikio
ツイッター https://twitter.com/tohdamikio
LINE https://lin.ee/igN7saM
チャットワーク https://www.chatwork.com/tohda
また、投げ銭システムも用意しましたのでお気持ちがあればクレジット決済などでもお支払いいただけます。
※投げ銭はスクエアの「寄付」というシステムに変更しています(2025年1月6日)
※投げ銭は100円からOKです。シャレですので笑ってご支援いただけるとうれしいです(笑)