AI(人工知能/ディープラーニング)パソコン/ソフトウェア/周辺機器

NVIDIAのGPU搭載PCでオープンソースのGPT-20bはどれくらいサクサク動くかを事前検討してみました

この記事は約8分で読めます。

NVIDIAのGPU搭載PCAI技術が身近になる中、「自分のパソコンでAIを動かしてみたい」と考える方が増えていますね。私もそのひとりです。
今回は、NVIDIA GeForce RTX 4060を搭載した新しいパソコンを使い、人気のソフトウェア「LM Studio」で注目度の高いAIモデル「gpt-oss-20b」を快適に動作させるための過程と、最適な設定方法を調べてみました。すでにこのようなモンスターマシンをお持ちの方もこれから購入しようとする方にも参考になるように情報提供します。

NVIDIA GPU搭載PCではじめるローカルAI!LM Studio導入と最適化ガイド

今回の環境:パワフルなDell製タワーPC

今回の対象PCは実際に知人が今月購入したというモンスターマシンです。普通に使うとしたらものすごいスペックなので爆速ですね。

NVIDIAのGPU搭載PC

AIをローカル環境で動かすには、ある程度の性能を持つパソコンが必要です。今回使用するPCのスペックは以下の通りです。

  • モデル: Dell タワー Plus (EBT2250 4.0 (54))
  • プロセッサー: インテル® Core™ Ultra 7 265
  • グラフィックス: NVIDIA® GeForce RTX™ 4060 8GB
  • メモリ: 32GB DDR5
  • ストレージ: 1TB M.2 PCIe NVMe SSD

特に、AIの計算で重要な役割を果たすのがNVIDIA製のGPU「GeForce RTX 4060」です。このGPUの性能を最大限に引き出すことが、快適なAI動作の鍵となります。

最初のステップ:LM StudioでAIモデルを探す

「LM Studio」は、様々なAIモデルを簡単な操作でダウンロードし、実行できる人気のソフトウェアです。無料で商用利用可能なので、興味ある方はぜひダウンロードして使ってみてください。

LM Studio - Download and run LLMs on your computer
Run gpt-oss, Llama, Gemma, Qwen, and DeepSeek locally and privately.

今回は、OpenAIが公開したオープンソースモデル「gpt-oss-20b」を使ってみます。

LM Studioを起動し、モデル検索画面で「gpt-oss-20b」と入力すると、多数のファイルが表示されます。

ここで多くの方が戸惑うのが、「同じ名前のファイルがたくさんある」という点です。実は、これらは同じモデルを異なる方法で軽量化したバージョンであり、お使いのPC環境(特にGPUのVRAM容量)に合わせて最適なものを選ぶ必要があります。

【重要ポイント】最適なモデルファイルの選び方

GeForce RTX 4060のVRAMは8GBです。この環境で「gpt-oss-20b」の性能を最大限に引き出すには、以下の3つの条件を満たすファイルを選ぶことが非常に重要です。

  1. ファイル形式:「GGUF」を選ぶ LM Studioで、CPUとGPU(グラフィックボード)を連携させてAIを効率的に動かすための標準的なファイル形式です。
  2. 量子化の種類:「MXFP4」を選ぶ【最重要】 AIモデルは通常巨大なため、性能を極力維持したままファイルサイズを小さくする「量子化」という処理がされています。「gpt-oss-20b」は少し特殊な設計のため、「MXFP4」という専用の形式で量子化されたものでないと、性能が大きく低下することがあります。他の「Q4_K_M」といった形式は、このモデルには適していません。
  3. ファイルサイズ:「約12.1 GB」のものを選ぶ VRAMが8GBの場合、モデルのすべてをGPUに読み込むことができません。ファイルサイズが小さいものを選ぶことで、GPUから溢れてしまう部分を最小限に抑え、処理速度の低下を防ぎます。

今回ダウンロードしたのは、これらの条件をすべて満たしたファイルです。

使うモデルは

openai/gpt-oss-20b
The 20B variant of OpenAI's open source model. Apache 2.0 licensed.

です。

LMスタジオからモデルを検索すると同じ名前で多数のバージョンがあります。どれを選べばいいかについて、上記の注意点を参考に間違えないように選択してください。皆さんも、ご自身の環境に合わせてファイルを選ぶ際の参考にしてください。

最終設定:GPUの性能を最大限に引き出す

正しいファイルを選んだら、次はLM Studioの設定です。この設定が快適な動作を実現するための最後の仕上げとなります。

  1. ダウンロードしたモデルの横にある「Use in New Chat」ボタンを押し、チャット画面へ移動します。
  2. 画面右側に設定パネルが表示されます。ここで「GPU Offload」という項目を探してください。
  3. 以下の2つの設定を行います。
    • 「Force Model Expert Weights onto CPU」をオンにする: これはVRAMが8GBのPCでこのモデルを動かすための最も重要な設定です。AIモデルの特殊な構造の一部をCPUにうまく担当させることで、VRAMの負担を軽減します。
    • GPU Offloadスライダーを調整する: スライダーを右に動かし、できるだけ多くの計算をGPUに割り当てます。画面に表示されるVRAM使用量が、お使いのPCの上限(この場合は8GB)に近づくまで調整しましょう(例:7.5GB / 7.9GB)。

以上の設定を行うことで、VRAM 8GBという限られた環境でも、「gpt-oss-20b」を安定して効率的に動作させることができます。

ちなみに上記画像は、私の非力なノートPCの設定画面です。「GPUオフロード」と「Force Model Expert Weights onto CPU」の設定はこのとおりではなく、PCにあわせて最適化してください。

もしVRAMが16GBのPCなら?設定と速度の違い

今回の対象PCは、NVIDIA® GeForce RTX™ 4060 8GBを搭載しているのでVRAMが8GBです。ローカルAIを動作させるならVRAMが重要です。

さらに高性能なGeForce RTX 4070など、VRAMが16GBあるPCを選ぶと、設定はよりシンプルになり、動作も高速になります。

LM Studioの設定の違い

VRAMが16GBあれば、約12.1GBのモデル全体をGPU上に読み込むことが可能です。そのため、設定は以下のように変わります。

設定項目 VRAM 8GBの場合 VRAM 16GBの場合 理由
GPU Offloadスライダー VRAM上限に近づくまで調整 最大(Max)に設定 モデル全体を高速なGPUで処理させるため。
Force Model Expert Weights onto CPU オンにする オフのままでOK VRAMに余裕があるため、低速なCPUに処理を分担させる必要がなくなります。

出力速度の比較(体感)

では、VRAM容量によって文章が生成される速度はどれくらい違うのでしょうか。インターネット経由で利用するChatGPT-4oとも比較してみましょう。

  • VRAM 8GBのローカル環境(今回のPC) 一部の処理をCPUとメインメモリで行うため、GPUだけで処理する場合に比べて速度は遅くなります。文章が少しずつ表示されていくのが分かる速度です。
  • VRAM 16GBのローカル環境 モデルのすべての計算が高速なVRAM上で完結するため、8GBの環境と比べて体感で2倍以上速くなることが期待できます。よりスムーズでストレスのない対話が可能です。
  • ChatGPT-4o(インターネット経由) 専門のデータセンターにある最高性能のGPUで動作しているため、速度は圧倒的です。インターネットの速度に問題がなければ、回答はほぼ一瞬で表示されます。ただし、プライバシーの観点や、オフラインで使えないといった側面もあります。

ローカルAIの魅力は、プライベートな環境で、インターネット接続なしに使えることです。VRAM容量は、その快適さを大きく左右する要素と言えます。

AIの賢さを調べましょう

LMスタジオでAIモデルを実装したら、その賢さを調べておきましょう。

そのAI、どれくらい賢いですか?ベンチマークテストで調べておきましょう
利用しているAIがどれくらい賢いのかを測定したことがありますか?まず、そのAIを日常的に利用する前にベンチマークテストをすることをお勧めます。たとえば、2025年8月から使えるようになったOpenAIのオープンソース版の「gpt-oss-20b」は、普通のChatGPTと比べてどれくらい賢いのでしょうか?事前に調べて性能を知っておくことが大事です。AIの性能を測定するためのベンチマークテストあなた...

ちなみに、PCの能力によって回答速度に差がでますが、AIの賢さはPCの能力には関係ありません。遅いPCでもそのモデルが動きさえすれば、そのAIモデルの賢さは維持されます。

まとめ

自分のPCでAIを動かす体験は非常にエキサイティングです。今回のように、少し専門的な知識が必要な場面もありますが、ポイントを押さえれば初心者の方でも十分に楽しむことができます。

  • AIモデルは、PCのスペック(特にVRAM)に合った形式・サイズを選ぶ。
  • LM Studioのようなツールを使い、GPUオフロード設定を最適化する。
  • VRAM容量が大きいほど、設定はシンプルになり、動作はより高速で快適になる。

これらの点を意識して、ぜひ皆さんもローカルAIの世界に挑戦してみてください。

ちなみに、私の現在のPCはマウスコンピューターの非力なノートPCですが、「LMスタジオ」+「gpt-oss-20b」を使っています。

ノートPCでネット接続不要のChatGPTが使えるようになりました、しかもオープンソースなので無料!LMstudioで試運転してみました
OpenAIは8月5日、オープンソースのAIモデル「gpt-oss」シリーズを公開しました。いわゆるローカルAIとしてインターネット接続なしでノートPCでChatGPTが動作するAIモデルです。設定が簡単なLMstudio(LMスタジオ)で使えるモデルもあり、無料で商用利用も可能ということです。これはビッグニュースですね。早速、該当モデルをダウンロードしてLMスタジオに設定して使ってみました。

私のノートPCと、今回の対象マシンDell タワー Plus (EBT2250 4.0 (54))との回答速度を比較すると、計算上では1割程度しかありません(泣)

マウスコンピューターのノートPCがよいです、会計用のPCとして導入しましたがメインマシンとして使えるくらい高性能でした
マウスコンピューターのスタンダードなノートPCを購入しました。会計用で使うためのPCなのでそれほど高性能でなくてもよいので、マウスコンピューターのスタンダードな14インチサイズのものにしました。購入額は税込みで10万円未満のため、法人利用の場合は資産計上せずに費用計上できる点も利点です。このPC、意外に高性能なのでびっくりしました。これまで私が使っていた約30万円のレッツノートよりはるかにサクサク...

やはり、ローカルAIを実現化するとしたら、それなりのパワーを持ったPCが必要ですね。特にVRAMに注目しましょう。