AI(人工知能/ディープラーニング)

ローカルLLM環境構築:新調したRTX 5060 Ti PCで最適な日本語モデルを検証しました

この記事は約6分で読めます。

ローカルAIとGPUコンピュータ今回はローカルAIについての報告です。ローカルで大規模言語モデル(LLM)を快適に動かすための基盤作りとして、新しくPCを導入しました。
そして、これまでノートPCで細々と動かしていた「LM Studio」を本格運用すべく、複数の最新モデルをテストした結果を備忘録としてまとめます。

サクサク使えるローカルAIの環境ができました

GPUコンピュータでローカルAI

導入したハードウェアと環境

ローカルLLMの性能はグラフィックボードの「VRAM(ビデオメモリ)容量」に大きく依存するため、今回はVRAM 16GBを搭載したPCを新調しました。
で、自分としては過去最大級の投資です。

以下製品のスペックです
製品名 GALLERIA XPR7M-R57T-GD
CPU AMD Ryzen 7 7700(3.8GHz〜5.3GHz / 8コア / 16スレッド)
OS Windows 11 Pro 64ビット
サウンド マザーボード標準 オンボードHDサウンド
メモリ 32GB(16GB×2)DDR5-4800
マザーボード AMD A620A チップセット マイクロATX
グラフィック NVIDIA GeForce RTX 5070 Ti 16GB GDDR7
映像出力:HDMI×1、DisplayPort×3
LAN 2.5Gb対応LANポート×1(オンボード)
ケース ガレリア専用 GEm-Gケース(MicroATX)ガンメタル × ダークグレイ
電源 750W(80PLUS GOLD)
CPUファン 水冷 Asetek 624S-M2(240mm / 非発光)
ストレージ 2TB SSD(NVMe Gen4)
Wi-Fi 6 + Bluetooth 5.2
入出力ポート
前面:
・USB2.0 ×2
・USB3.2 Gen1 Type-A ×2
・USB3.2 Gen1 Type-C ×1
背面:
・USB2.0 ×2
・USB3.2 Gen1 Type-A ×2
・映像出力 HDMI ×1、DisplayPort ×1

GPU: NVIDIA GeForce RTX 5060 Ti (VRAM 16GB)のハイスペックマシン

AIモデルの比較検討

使用ソフト: LM Studio
主な用途: 業務におけるレポート作成、議事録の要約など(文章生成メイン)

ローカルAI、LMスタジオの「gpt-oss-20b」にunsloth版モデルがでたので試してみましたら良好でした
LMスタジオで使うOpenAIのオープンソース版のChatGPTといわれている「gpt-oss-20b」。先週からあらたにunsloth版のモデルがダウンロードできるようになっていました。「unsloth」とは「アンスロース/遅くないよ!」...
ローカルAIならGemmaが優秀ですね、LMスタジオにgemma3nの6.9Bモデルは4.24GBという小さなサイズでした
最近、AI(人工知能)の話題をよく耳にしますよね。ChatGPTやGeminiなどの生成AIや、チャットボット、自動翻訳など、AIはますます私たちの生活に溶け込んできています。でも、AIを使うにはインターネット(クラウド)にアクセスしないと...

これまでノートPCで利用してきたのは上記のような感じです。非力なノートPCなので小さなモデルでしか使えませんでした。

今回のPCはハイスペックです。このVRAM 16GBの恩恵を活かすため、今回はこれまで使えなかった大型モデルを中心に以下のモデルをテストしました。

テストしたAIモデル

検証したモデル(GGUF形式)

GPT-OSS 20B (Standard)
パラメータ数:200億 (20B) / VRAM消費目安:約12.1GB

GPT-OSS Swallow 20B (RL版 / SFT版)
パラメータ数:200億 (20B) / VRAM消費目安:約12.1GB
※東京科学大学(旧・東工大)と産総研が日本語推論能力を強化した特化モデル

NVIDIA Nemotron Nano 9B v2 Japanese
パラメータ数:90億 (9B) / VRAM消費目安:約6.2GB

テスト経過と所感

驚異的な生成スピード、しかし日本語の精度に課題(GPT-OSS 20B)

まずベースとなる「GPT-OSS 20B」をテストしました。驚いたのはその生成速度です。新しいGPU(RTX 5060 Ti)の恩恵で、200億パラメータの大型モデルにも関わらず爆速でテキストを出力してくれました。

しかし、レポート作成など実務の文章生成に組み込んでみると、日本語の言い回しやニュアンスがいまひとつ「しっくりこない」場面が散見されました。

日本語特化の推論モデルへの期待と現実(GPT-OSS Swallow 20B)

そこで、最近AI界隈で「日本語推論に強い」と好成績を出している、東京科学大学(旧・東工大)チューニングの「GPT-OSS Swallow 20B」シリーズをテストしました。
論理的思考に特化した「RL(強化学習)版」や、安定志向の「SFT版」などを試しましたが、私の求めるレポート・議事録作成の用途においては、期待したほどの劇的な成果は得られませんでした。システムプロンプトでの制御がうまく効かない点もありちょっと残念な感じになってしまいました。

gptoss20bモデル

結論:圧倒的なバランスを誇る「NVIDIA 9B」が優勝

最終的に最も実用的だったのが、NVIDIAの「Nemotron Nano 9B v2 Japanese」でした。

パラメータサイズは9B(20Bの半分以下)と小型ですが、最新の学習手法が用いられているためか、出力される日本語の質が最も高く、私の用途にベストマッチしました。

さらに、このモデルを採用する最大のメリットは「VRAMの余裕」です。

GPToss20Bモデル: VRAMを12GB以上消費するため、AIの記憶領域(コンテキスト長)を「8,192 (8K)」程度に抑えないと動作が不安定になります。

・NVIDIA 9B: VRAM消費が約6.2GBで済むため、コンテキスト長を「16,384 (16K)」と2倍に広げても全く問題なくサクサク動作すします。

長い議事録を読み込ませたり、文脈を維持したまま対話を続ける上で、この「コンテキスト長16Kを常時使える」という点は、使い勝手を劇的に向上させてくれました。

Nemotron Nano 9B v2 Japanese

NVIDIAの「Nemotron Nano 9B v2 Japanese」の回答例

実際にLMスタジオのNVIDIAの「Nemotron Nano 9B v2 Japanese」で回答させた例を紹介します。入力は音声入力なので少し不自然ですが、回答はちゃんとしています。生成速度も10.7秒なので実用的です。

回答例

ローカル環境でLMスタジオを活用し、複数の言語モデルを実践的にテストした結果、予想外の成果が得られました。今回重点的に検証したのは、GPT系の汎用モデルや大規模なOSS 20Bを含む候補群でしたが、その中でも際立ったパフォーマンスを示したのはNVIDIA開発の6Bモデルでした。

特に日本語生成においては、単なる計算能力ではなく「言語特性への最適化」が鍵だったと考えます。大型モデルでは時に過剰な情報処理による不自然さが目立つ中、6Bモデルは文脈理解と出力精度のバランスが非常に優れており、日本語特有の表現ニュアンスや助詞の配置まで丁寧に再現していました。また、ローカル環境での動作効率も良好で、高速なレスポンスと安定した品質を両立している点が実用的な強みです。

この結果を踏まえると、日本語対応を重視するシナリオでは「スケール」ではなく「最適化の精度」が重要であることが改めて浮き彫りになりました。今後はさらに日本語専用チューニング版の開発も期待したいところです。

ローカル環境での実験を通じて、高品質な生成モデル選定には「条件に合わせた適正サイズ」が不可欠であることを改めて学びました。この経験を多くの開発者に共有し、より効率的なAI活用を促していきたいと思います。

エディタ連携(VS Code)に関する課題

今回、プロンプトの管理や作業効率化のために「VS Code(Continue拡張機能)」との連携も試し始めました。LMスタジオでモデルを設定してローカルで解放するとVSコードの画面から使えるようになります。たしかにこれは便利。

しかし、推論モデル(RL版など)が内部で出力する「思考プロセス」のテキストがVS Code側でパースエラーを引き起こすなど、LM Studioとの連携においていくつか挙動問題を起こしました。

ツール間の相性問題でストレスを抱えるよりは、純粋な生成精度と速度を活かすため、当面はLM Studio本体のチャット画面だけでシンプルに運用していく方針とします。文章生成だけであればこの運用がベターだと思います。

なお、今後、他の使い方も検討しているので、その状況になればまた設定を変えていくかもしれません。

ローカルAI環境がスタートできました

ローカルLLMは「パラメータサイズが大きければ良い」というわけではありませんね。

「VRAMに十分な余裕を持たせ、高品質な中型モデル(9Bクラス)を広いコンテキスト長(16K)で回す」のが、現在のRTX 5060 Ti環境における最適解だと実感しました。

また新たなモデルがでたりメモリ圧縮の新技術などもでたりするでしょうから、環境変化に適合させて使っていきたいと思います。