NVIDIAのGPU搭載PCでオープンソースのGPT-20bはどれくらいサクサク動くかを事前検討してみました

2025.08.182025.08.19

この記事は約8分で読めます。

AI技術が身近になる中、「自分のパソコンでAIを動かしてみたい」と考える方が増えていますね。私もそのひとりです。
今回は、NVIDIA GeForce RTX 4060を搭載した新しいパソコンを使い、人気のソフトウェア「LM Studio」で注目度の高いAIモデル「gpt-oss-20b」を快適に動作させるための過程と、最適な設定方法を調べてみました。すでにこのようなモンスターマシンをお持ちの方もこれから購入しようとする方にも参考になるように情報提供します。

このページの目次

NVIDIA GPU搭載PCではじめるローカルAI！LM Studio導入と最適化ガイド

NVIDIA GPU搭載PCではじめるローカルAI！LM Studio導入と最適化ガイド

今回の環境：パワフルなDell製タワーPC

今回の対象PCは実際に知人が今月購入したというモンスターマシンです。普通に使うとしたらものすごいスペックなので爆速ですね。

AIをローカル環境で動かすには、ある程度の性能を持つパソコンが必要です。今回使用するPCのスペックは以下の通りです。

モデル: Dell タワー Plus (EBT2250 4.0 (54))
プロセッサー: インテル® Core™ Ultra 7 265
グラフィックス: NVIDIA® GeForce RTX™ 4060 8GB
メモリ: 32GB DDR5
ストレージ: 1TB M.2 PCIe NVMe SSD

特に、AIの計算で重要な役割を果たすのがNVIDIA製のGPU「GeForce RTX 4060」です。このGPUの性能を最大限に引き出すことが、快適なAI動作の鍵となります。

最初のステップ：LM StudioでAIモデルを探す

「LM Studio」は、様々なAIモデルを簡単な操作でダウンロードし、実行できる人気のソフトウェアです。無料で商用利用可能なので、興味ある方はぜひダウンロードして使ってみてください。

LM Studio - Local AI on your computer

Run local AI models like gpt-oss, Llama, Gemma, Qwen, and DeepSeek privately on your computer.

今回は、OpenAIが公開したオープンソースモデル「gpt-oss-20b」を使ってみます。

LM Studioを起動し、モデル検索画面で「gpt-oss-20b」と入力すると、多数のファイルが表示されます。

ここで多くの方が戸惑うのが、「同じ名前のファイルがたくさんある」という点です。実は、これらは同じモデルを異なる方法で軽量化したバージョンであり、お使いのPC環境（特にGPUのVRAM容量）に合わせて最適なものを選ぶ必要があります。

【重要ポイント】最適なモデルファイルの選び方

GeForce RTX 4060のVRAMは8GBです。この環境で「gpt-oss-20b」の性能を最大限に引き出すには、以下の3つの条件を満たすファイルを選ぶことが非常に重要です。

ファイル形式：「GGUF」を選ぶ LM Studioで、CPUとGPU（グラフィックボード）を連携させてAIを効率的に動かすための標準的なファイル形式です。
量子化の種類：「MXFP4」を選ぶ【最重要】 AIモデルは通常巨大なため、性能を極力維持したままファイルサイズを小さくする「量子化」という処理がされています。「gpt-oss-20b」は少し特殊な設計のため、「MXFP4」という専用の形式で量子化されたものでないと、性能が大きく低下することがあります。他の「Q4_K_M」といった形式は、このモデルには適していません。
ファイルサイズ：「約12.1 GB」のものを選ぶ VRAMが8GBの場合、モデルのすべてをGPUに読み込むことができません。ファイルサイズが小さいものを選ぶことで、GPUから溢れてしまう部分を最小限に抑え、処理速度の低下を防ぎます。

今回ダウンロードしたのは、これらの条件をすべて満たしたファイルです。

使うモデルは

openai/gpt-oss-20b

The 20B variant of OpenAI's open source model. Apache 2.0 licensed.

です。

LMスタジオからモデルを検索すると同じ名前で多数のバージョンがあります。どれを選べばいいかについて、上記の注意点を参考に間違えないように選択してください。皆さんも、ご自身の環境に合わせてファイルを選ぶ際の参考にしてください。

最終設定：GPUの性能を最大限に引き出す

正しいファイルを選んだら、次はLM Studioの設定です。この設定が快適な動作を実現するための最後の仕上げとなります。

ダウンロードしたモデルの横にある「Use in New Chat」ボタンを押し、チャット画面へ移動します。
画面右側に設定パネルが表示されます。ここで「GPU Offload」という項目を探してください。
以下の2つの設定を行います。
- 「Force Model Expert Weights onto CPU」をオンにする： これはVRAMが8GBのPCでこのモデルを動かすための最も重要な設定です。AIモデルの特殊な構造の一部をCPUにうまく担当させることで、VRAMの負担を軽減します。
- GPU Offloadスライダーを調整する： スライダーを右に動かし、できるだけ多くの計算をGPUに割り当てます。画面に表示されるVRAM使用量が、お使いのPCの上限（この場合は8GB）に近づくまで調整しましょう（例：7.5GB / 7.9GB）。

以上の設定を行うことで、VRAM 8GBという限られた環境でも、「gpt-oss-20b」を安定して効率的に動作させることができます。

ちなみに上記画像は、私の非力なノートPCの設定画面です。「GPUオフロード」と「Force Model Expert Weights onto CPU」の設定はこのとおりではなく、PCにあわせて最適化してください。

もしVRAMが16GBのPCなら？設定と速度の違い

今回の対象PCは、NVIDIA® GeForce RTX™ 4060 8GBを搭載しているのでVRAMが8GBです。ローカルAIを動作させるならVRAMが重要です。

さらに高性能なGeForce RTX 4070など、VRAMが16GBあるPCを選ぶと、設定はよりシンプルになり、動作も高速になります。

LM Studioの設定の違い

VRAMが16GBあれば、約12.1GBのモデル全体をGPU上に読み込むことが可能です。そのため、設定は以下のように変わります。

設定項目	VRAM 8GBの場合	VRAM 16GBの場合	理由
GPU Offloadスライダー	VRAM上限に近づくまで調整	最大（Max）に設定	モデル全体を高速なGPUで処理させるため。
Force Model Expert Weights onto CPU	オンにする	オフのままでOK	VRAMに余裕があるため、低速なCPUに処理を分担させる必要がなくなります。

VRAMに余裕があるほど、設定は簡単になり、GPUの性能をフルに発揮できるようになります。

出力速度の比較（体感）

では、VRAM容量によって文章が生成される速度はどれくらい違うのでしょうか。インターネット経由で利用するChatGPT-4oとも比較してみましょう。

VRAM 8GBのローカル環境（今回のPC） 一部の処理をCPUとメインメモリで行うため、GPUだけで処理する場合に比べて速度は遅くなります。文章が少しずつ表示されていくのが分かる速度です。
VRAM 16GBのローカル環境 モデルのすべての計算が高速なVRAM上で完結するため、8GBの環境と比べて体感で2倍以上速くなることが期待できます。よりスムーズでストレスのない対話が可能です。
ChatGPT-4o（インターネット経由） 専門のデータセンターにある最高性能のGPUで動作しているため、速度は圧倒的です。インターネットの速度に問題がなければ、回答はほぼ一瞬で表示されます。ただし、プライバシーの観点や、オフラインで使えないといった側面もあります。

ローカルAIの魅力は、プライベートな環境で、インターネット接続なしに使えることです。VRAM容量は、その快適さを大きく左右する要素と言えます。