gpt-oss-120b – Kaichi Tsukai

本記事で得られる３つのポイント

gpt-oss-120bの**正式仕様（MoE構成・128kトークン・4bit量子化）**と、ローカル実装で支配的となるボトルネック（KVキャッシュ／メモリ帯域）の要点。
M2/M3/M4 Maxでの実務目線の可否判定と、**費用対効果（M3 Maxで十分／M4 Maxは余力）**という結論の根拠。
ラップトップ／デスクトップ／WSの推奨機材と運用Tips（量子化・コンテキスト設計・エンジン選定）を、最新公開情報ベースで提示。

なぜ重要か

“動く”だけでなく“安定して回せる”境界は、モデル仕様 × ハードの帯域・メモリ × 推論エンジンの三位一体で決まるからです。続きを読む。

モデル仕様の要点（まず何者かを正しく掴む）

アーキテクチャと容量の現実

gpt-oss-120bはMixture-of-Experts（MoE）型で、36層／各層128エキスパート／Top-4選択。総パラメータ約116.8B、アクティブは約5.1B。MoE重みは**MXFP4（≈4.25bit）**へ量子化され、チェックポイント約60.8GiB。この最適化により「80GB GPU 1枚に収まる」サイズ感です。
トークナイザはo200k_harmony、コンテキスト長は131,072トークン（実務では“128k”表記）。拡張はYaRNで実現。長文時はKVキャッシュが主要メモリ消費になります。
OpenAIの公開情報・レシピ・Hugging Face連携が整備され、オープンウェイトとして一般入手・運用可能です。

先に結論：ローカル運用は可能。ただし“快適さ”はコンテキスト長と並列度に強く依存します（＝短～中程度の文脈で単発なら現実的、長文×並列では帯域とメモリが効く）。

Apple Silicon（M2/M3/M4）での可否と実務ライン

帯域とメモリが決める“安定運用”の壁

M2 Max（最大96GB／~400GB/s帯域クラス）：Q4系量子化＋**短～中コンテキスト（〜8–12k tokens）**までなら実用。長文・並列で早めに頭打ち。
M3 Max（最大128GB）：128GBと帯域向上で8–16k tokensなら安定運用域。費用対効果の本命。
M4 Max（最大128GB／最大546GB/s**）：帯域強化により長文（>16k）や複数ストリームでマージン増。“余力を買う”選択**として合理的。

コア事実：M2→M3→M4で**「劇的に速く」はなりません。“落ちにくさ（長文安定）と同時実行の持久力”がM4で効く、という理解が実務的です。コミュニティ計測でも70B級がM3/M4 Max 128GBで~数t/s〜個人用途実用**という傾向が多数報告されています（ワークロード依存）。

“読める／書ける”上限はモデル仕様が上書き

gpt-oss-120bの128k tokensは入力＋出力の合計上限。機種差ではなくモデル仕様による制約で、長文時に問題化するのはKVキャッシュの膨張です。
KVはトークン数に線形比例し、エンジン（llama.cpp/MLX/vLLM等）の実装で圧縮やページングを使うかが効きます（例：vLLMのPagedAttention／FP8 KV）。

「安定運用できるか」の結論と前提条件

結論

できます。 ただし“安定運用”の意味をQ4系量子化＋短～中コンテキスト（〜8–16k）で、単発ないし軽い並列と定義した場合に限ります。M3 Max 128GBで費用対効果よく達成でき、M4 Max 128GBは長文（>16k）や2並列以上の場面でエラー耐性・持久力に分があります。M2 Max 96GBは動くが、余白は小さめです。

前提条件（ミニマム）

量子化：MXFP4/Q4系を選択（公式チェックポイントはMoE重みをMXFP4化）。
エンジン：macOSはMLXまたはllama.cpp(Metal)。長文や同時実行が増えるなら、vLLMのようなKV効率化実装が有利（Linux/Windows向けに多い）。
コンテキスト設計：8–16k tokensを目安に抑え、長文は分割RAGへ。128kの理論値を常時使い切らないのが安定運用の肝。

コミュニティ計測の相場観（“速度”は目安として）

70B級（Llama系）を指標にした外挿

M3/M4 Max 128GBで、Llama 70B Q4が数t/s〜一桁後半t/sの報告が散見（プロンプト長や量子化で大きく変動）。帯域差はあるものの、単発対話では体感差が縮むケースが多い。
これをMoE 120B（gpt-oss-120b）へ外挿すると、短〜中コンテキスト・単発なら耐用レンジ。ただし長文×並列ではM4 Max優位の場面が増える——というのが筆者の総合判断です。

注：速度は計測条件依存（量子化・温度・ストップ条件・トークナイザ差・KV実装・熱設計）。本稿の数値は**“コミュニティ報告の傾向”**として参照し、導入現場での再計測を推奨します。

ハード選定：Laptop優先／Desktopも可視化

Laptop（USB-C給電志向）で外しにくい選択肢

MacBook Pro 16″ M3 Max 128GB：最有力（コスパ）。128GB統合メモリとMLX/Metal最適化で短～中コンテキストは安定。
MacBook Pro 16″ M4 Max 128GB：余力重視。最大546GB/sの帯域が長文・並列で効く。価格差に価値を見出せるならこちら。
WS系（Windows/Linux）でRAM大量確保が必要な場合：
- ThinkPad P16 Gen 2（最大192GB）
- HP ZBook Fury 16 G11（128GBまで／G1i 18″は~192–256GBの案内あり）
- EUROCOM Raptor X18（最大256GB、ただしPD運用は非前提）

余談：WS系は大メモリが魅力ですが、USB-C PDだけでピーク性能を出す設計ではない個体が多い点に留意（付属AC運用が無難）。

Desktop/WS（完成品）で“余裕を買う”

Lenovo ThinkStation P620（TR PRO／最大1TB ECC）：CPU推論や多プロセスRAGに強い“土台”。
Dell Precision 7875（TR PRO／RTX 6000 Ada 48GB～将来Blackwell 96GBも）
HP Z8 Fury（最大4基のRTX 6000 Adaまで）——長文×多並列の“力業”解。

BTOで組む：予算別リファレンス構成

（用途：Q4量子化・8–16Kコンテキスト想定）

※価格は相場変動を踏まえた目安。国内流通状況に合わせて調整推奨。

案A：最小限で“実用”CPU推論（約 ¥35–50万）

CPU：AMD Ryzen 9 9950X（16C / Zen 5）
Memory：128GB DDR5-5600 UDIMM
GPU：なし or 中位（RTX 4070 Super）
他：B650E板／NVMe 2TB／ATX 850W／静音ケース
狙い：CPU単騎でQ4推論。短中コンテキスト中心。

案B：バランス型（約 ¥70–100万）

CPU：Ryzen 9 9950X
Memory：256GB
GPU：RTX 4090 24GB または RTX 5080 16GB GDDR7
他：X670E板／NVMe 2TB×2／ATX 1000W
狙い：20B快適、120BはQ4で待てるレベル。RAG同時処理も余裕。

案C：高速単機（約 ¥110–150万）

CPU：Ryzen 9 9950X
Memory：256GB
GPU：RTX 5090 32GB GDDR7
他：高性能冷却／ATX 1200W
狙い：120BのQ4推論を現実的速度で。生成AI統合機。

案D：ワークステーション級（約 ¥180–300万＋）

CPU：Threadripper PRO 7975WX/7995WX（WRX90チップセット）
Memory：512GB ECC（将来1TB拡張可）
GPU：RTX 6000 Ada 48GB ×1（将来2基）
他：WS向けマザー／NVMe 2TB×2〜／ATX 1600W
狙い：長文×多並列を安定高速に。将来のTP/PP分割推論にも対応。

運用上の要点

量子化：Q4_K_Mを標準。精度と負荷のバランスが良い。
コンテキスト設計：8〜16Kを常用。超長文は分割RAG推奨。
並列処理：Macなら2並列以内が安定。デスクトップは4並列以上も視野。
冷却と電源：BTOは冷却性能とPSU容量を余裕設定に。

運用Tips：落ちにくく、速すぎず、ちょうどよく

量子化とエンジン

MXFP4/Q4を基本線（公式チェックポイント前提）。MLX／llama.cpp(Metal)でまず動線を確立し、Linux/WindowsならvLLMでPagedAttention＋FP8 KV等を活用。KV効率で長文・並列の安定が変わります。

コンテキスト設計

8–16k tokensを“日常運用の上限”に。128kは検証用に留め、実務は分割RAG／前処理要約でKV増大を回避。

“速さ”より“安定”

個人・小規模で最も効くのは失敗しにくい設定（出力上限／温度／トップP等の保守設定＋段階的プロンプト）。速度は副次指標と割り切ると、運用負荷が下がります。
なおコミュニティ計測は有用だが、再現条件を合わせて内製ベンチを作るのが王道（比較対象：プロンプト長、量子化、サンプリング、温度、停止条件）。

投資判断（まとめ）

結論（調査を踏まえた見解）

ローカル安定運用は可能。ただしQ4＋短～中コンテキスト（〜8–16k）という“現実解”で設計すること。モデル仕様（128k）を常用上限にしない。
費用対効果の最適解は M3 Max 128GB。単発～軽並列中心なら、M4 Maxとの差は**“余力”寄りの差分**に収束しやすい。
長文×並列を攻める、将来の余白や耐障害性を重んじるならM4 Max 128GBへ。ワークロード次第ではWS/デスクトップ＋大VRAMが「快適域」を一気に押し広げます（RTX 6000 Ada 等）。

最後に

“120Bを膝上で回す時代”は来ました。ただし“快適に”はまだ選球眼が要ります。M3 Max 128GBで堅実に攻め、M4 MaxやWSで“長文×並列”に踏み込む——これが2025年8月時点の“勝ち筋”です。

付録｜専門用語の意味一覧

用語	意味（平易）	実務上の要点
MoE（Mixture-of-Experts）	各層に多数の「専門家（エキスパート）」を用意し、入力ごとに一部だけを動かす仕組み	120Bクラスでも実稼働パラメータが少ないため、4bit量子化と組み合わせるとローカル推論の現実解になりうる。gpt-oss-120bは各層128エキスパート／Top-4が公式仕様。
アクティブ・パラメータ	MoEで実際に計算に使うパラメータ数	gpt-oss-120bは5.1Bがトークン毎に稼働。総パラメータ（117B）との違いを理解してメモリ見積りを行う。
MXFP4（OpenAI 4-bit相当表現）	gpt-ossで採用されたネイティブ量子化形式	重みが既にMXFP4で配布されるため、追加の量子化不要。120Bは80GB級に載る設計が公式アナウンス。
量子化（Q4 等）	モデル重みのビット幅を落として軽量化する手法	120Bのローカル運用は4bit前提が基本線。精度↔速度/メモリのトレードオフ調整が要。
コンテキスト長（Context Window）	「一度に扱える入力＋出力トークン」の上限	gpt-ossは128k tokensまでをネイティブ対応。長文時はKVキャッシュ増大に注意。
o200k_harmony（トークナイザ）	GPT-4o系を拡張した新トークナイザ（Harmony形式に最適化）	公式にオープンソース化。正しいフォーマットでの入出力（Harmony）を前提にする。
KVキャッシュ	生成中に保持するKey/Value（注意機構の中間表現）	トークン数にほぼ比例してメモリ消費が増えるため、128kを常用せず8–16k運用＋RAG分割が安定。
YaRN（RoPEスケーリング）	RoPEの長文拡張手法の一種	vLLMなど主要実装がYaRN対応。超長文検証時は実装側フラグ設定が必要。
PagedAttention（vLLM）	KVをページングして効率よく扱う実装	長文・並列での安定性向上。Linux/Windowsでの高効率推論に有用。
llama.cpp（Metal/Vulkan等）	軽量推論エンジン	macOSではMetalバックエンドが実装成熟。まずは動線確認に好適。
MLX（Apple公式）	Apple Silicon向けの公式推論/学習フレーム	M系での最適化が進んでおり、ローカル推論の第一候補。
vLLM	高スループット推論サーバ（Python）	PagedAttention／長文最適化で多リクエストに強い。Linux/WSで“快適域”を広げやすい。
UMA（統合メモリ）	CPU/GPUで物理メモリを共有する方式	Apple Siliconの強み。M3/M4 Max 128GBは120BのQ4運用で余裕が取りやすい。
USB-C PD（給電）	USB Type-Cの電力供給規格	ラップトップ運用時は充電可≠常時ピーク性能の想定が現実的（純正AC推奨の機種多し）。
HF（Hugging Face）	モデル配布/実行の標準ハブ	gpt-ossの公式配布先。120B=80GB, 20B=16GBの要件説明も明記。

付録：信頼できる一次情報リンク（URLつき）

OpenAI 公式アナウンス／モデルカード

Introducing gpt-oss（公式発表） — 仕様の要点（MoE, 128k, MXFP4/80GB, o200k_harmony ほか）。
https://openai.com/index/introducing-gpt-oss/
Model Card（Web版） — モデル仕様の詳細整理ページ。
https://openai.com/index/gpt-oss-model-card/
Model Card（PDF版） — 研究的詳細（パラメータ構成、ベンチ結果、安全性評価など）。
https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

配布・実装（一次）

Hugging Face：openai/gpt-oss-120b — 正式配布レポ（117B／5.1B active、運用要件）。
https://huggingface.co/openai/gpt-oss-120b
GitHub：openai/gpt-oss — 公式リポジトリ（README、ライセンス、ガイドへの導線）。
https://github.com/openai/gpt-oss

運用ガイド／長文最適化

Hugging Face Inference Providers：GPT-OSSガイド — 使い方の手順と実装例。
https://huggingface.co/docs/inference-providers/en/guides/gpt-oss
Hugging Face Blog：OpenAI GPT-OSS の受け入れ — 実運用の勘所（プロバイダ連携など）。
https://huggingface.co/blog/welcome-openai-gpt-oss
vLLM：PagedAttention（設計ドキュメント） — 長文・多リクエスト時の基盤技術。
https://docs.vllm.ai/en/latest/design/paged_attention.html
vLLM：長文（YaRN）対応ドキュメント — 131k級の扱いに必要な設定。
https://qwen.readthedocs.io/en/latest/deployment/vllm.html

参考（背景報道：直近の公開情報）

Windows Central — gpt-oss-120b/20bの公開報道（オープンウェイト、ローカル実行の要点）。
https://www.windowscentral.com/artificial-intelligence/openai-chatgpt/openai-launches-two-gpt-models-theyre-not-gpt-5-but-they-run-locally-on-snapdragon-pcs-and-nvidia-rtx-gpus
CincoDías（El País） — 仕様要点とライセンス（Apache 2.0）、128k、MoE等の周知。
https://cincodias.elpais.com/smartlife/lifestyle/2025-08-06/openai-presenta-gpt-oss-120b-gpt-oss-20b.html

タグ: gpt-oss-120b

【ChatGPT 5 Thinking】gpt-oss-120bをローカル環境で安定運用できるのか——現実解と投資判断（2025年8月版）