Llama 4の登場が意味すること
Metaが2025年にLlama 4をオープンソースで公開したことは、LLM業界全体の勢力図に影響を与えた。「オープンソースはクローズドに追いつけない」という定説が崩れつつある。
Llama 3までのモデルは「GPT-3.5相当」「GPT-4の廉価版」という印象が強かった。しかしLlama 4の登場で、オープンソースモデルがGPT-4oやClaude 3.5 Sonnetクラスと実質的に同等の性能を持つ時代が来た。これはビジネスに何を意味するのか。
Llama 4のラインナップと特徴
Llama 4は複数のサイズで提供されている。パラメータ数でいうと8B・70B・405Bの3系統があり、それぞれ「Scout」「Maverick」「Behemoth」という開発コードが使われている。
アーキテクチャにはMoE(Mixture of Experts)を採用し、パラメータ数の割に推論コストを抑えている。全パラメータを毎回動かすのではなく、タスクに応じて必要な専門家(Expert)だけを起動する仕組みで、計算効率が高い。
最大の特徴は「商用利用可能なライセンス」だ。Llama 3以降、月間アクティブユーザー数が一定を超える大企業への制限はあるものの、中小規模のビジネス利用はおおむね認められている。
ローカル実行の現実的な要件
Llama 4をローカルで動かす場合、モデルサイズによって要求ハードウェアが大きく変わる。
8Bモデル(Scout)
最低8GB VRAM(NVIDIA RTX 4090やA10G以上が快適)。Apple SiliconのMac(M2 Pro以上)でも動く。日常的なテキスト処理タスクなら十分な品質を持つ。ノートPCでの運用も現実的だ。
70Bモデル(Maverick)
40〜80GB VRAM相当が必要で、RTX 4090×2枚やA100 1枚のクラスになる。量子化(4bit/8bit精度削減)を使えば要件は下がるが品質も低下する。個人での運用は難しく、チーム共有サーバーかクラウドGPUが現実的だ。
405Bモデル(Behemoth)
データセンター規模のGPUクラスターが必要。個人・中小企業での自前運用は現実的でなく、Groq・Together AI・Lambdaなどのホスティングサービスで使うことになる。
クローズドモデルとの品質比較
SWE-Bench(コーディング)、MMLU(知識)、MT-Bench(会話・指示追従)の3つの評価軸で整理すると:
Llama 4 Maverick(70B)はGPT-4oやClaude 3.5 Sonnetに対してほぼ同等のスコアを出している。差は5〜10%程度で、「同じタスクで試したら人間には区別がつかない」ことも多い。
一方でLlama 4が苦手なのは、長い会話での一貫性維持と、きめ細かい指示への忠実度だ。10ターン以上の会話でキャラクターがブレる、前の指示を忘れる、といった問題はクローズドモデルよりも頻繁に起きる。
実際に業務で使える場面
Llama 4が本当に輝くのは「データが社外に出せない」ケースだ。
医療機関の電子カルテ要約、士業事務所の顧客情報を含む文書処理、製造業の設計図・仕様書の分析——これらはクラウドAPIに投げることを社内ポリシーで禁じている組織が多い。Llama 4をオンプレミスで動かせば、データが外部に出ないまま高性能LLMを活用できる。
また、カスタムファインチューニングの自由度もオープンソースの強みだ。自社のドメイン知識や独自スタイルで追加学習させることで、クローズドモデルでは出せない特化した品質を実現できる。
コストの現実
ローカル運用のコストは「GPUサーバーの初期投資・維持費 vs API料金」で考える必要がある。月に100万トークン以下の使用量であれば、クラウドAPIの方が圧倒的に安い。一日数百万〜数千万トークンを処理するようになって初めて、ローカル運用のコスト優位が現れる。
まとめ
Llama 4は「オープンソースがプロダクションで使えるレベル」に達したことを示したマイルストーンだ。ただし、ローカル運用には相応のハードウェア投資と運用コストがかかる。
「データを外に出せない」「ファインチューニングが必要」「大量処理でコストを下げたい」——この3つのどれかに当てはまるなら、Llama 4の導入を真剣に検討する価値がある。それ以外の場合は、まずClaude 4やGPT-5のAPIを使う方が運用負担は少ない。