Llama 4の登場が意味すること

Metaが2025年にLlama 4をオープンソースで公開したことは、LLM業界全体の勢力図に影響を与えた。「オープンソースはクローズドに追いつけない」という定説が崩れつつある。

Llama 3までのモデルは「GPT-3.5相当」「GPT-4の廉価版」という印象が強かった。しかしLlama 4の登場で、オープンソースモデルがGPT-4oやClaude 3.5 Sonnetクラスと実質的に同等の性能を持つ時代が来た。これはビジネスに何を意味するのか。

Llama 4のラインナップと特徴

Llama 4は複数のサイズで提供されている。パラメータ数でいうと8B・70B・405Bの3系統があり、それぞれ「Scout」「Maverick」「Behemoth」という開発コードが使われている。

アーキテクチャにはMoE(Mixture of Experts)を採用し、パラメータ数の割に推論コストを抑えている。全パラメータを毎回動かすのではなく、タスクに応じて必要な専門家(Expert)だけを起動する仕組みで、計算効率が高い。

最大の特徴は「商用利用可能なライセンス」だ。Llama 3以降、月間アクティブユーザー数が一定を超える大企業への制限はあるものの、中小規模のビジネス利用はおおむね認められている。

ローカル実行の現実的な要件

Llama 4をローカルで動かす場合、モデルサイズによって要求ハードウェアが大きく変わる。

8Bモデル(Scout)

最低8GB VRAM(NVIDIA RTX 4090やA10G以上が快適)。Apple SiliconのMac(M2 Pro以上)でも動く。日常的なテキスト処理タスクなら十分な品質を持つ。ノートPCでの運用も現実的だ。

70Bモデル(Maverick)

40〜80GB VRAM相当が必要で、RTX 4090×2枚やA100 1枚のクラスになる。量子化(4bit/8bit精度削減)を使えば要件は下がるが品質も低下する。個人での運用は難しく、チーム共有サーバーかクラウドGPUが現実的だ。

405Bモデル(Behemoth)

データセンター規模のGPUクラスターが必要。個人・中小企業での自前運用は現実的でなく、Groq・Together AI・Lambdaなどのホスティングサービスで使うことになる。

クローズドモデルとの品質比較

SWE-Bench(コーディング)、MMLU(知識)、MT-Bench(会話・指示追従)の3つの評価軸で整理すると:

Llama 4 Maverick(70B)はGPT-4oやClaude 3.5 Sonnetに対してほぼ同等のスコアを出している。差は5〜10%程度で、「同じタスクで試したら人間には区別がつかない」ことも多い。

一方でLlama 4が苦手なのは、長い会話での一貫性維持と、きめ細かい指示への忠実度だ。10ターン以上の会話でキャラクターがブレる、前の指示を忘れる、といった問題はクローズドモデルよりも頻繁に起きる。

実際に業務で使える場面

Llama 4が本当に輝くのは「データが社外に出せない」ケースだ。

医療機関の電子カルテ要約、士業事務所の顧客情報を含む文書処理、製造業の設計図・仕様書の分析——これらはクラウドAPIに投げることを社内ポリシーで禁じている組織が多い。Llama 4をオンプレミスで動かせば、データが外部に出ないまま高性能LLMを活用できる。

また、カスタムファインチューニングの自由度もオープンソースの強みだ。自社のドメイン知識や独自スタイルで追加学習させることで、クローズドモデルでは出せない特化した品質を実現できる。

コストの現実

ローカル運用のコストは「GPUサーバーの初期投資・維持費 vs API料金」で考える必要がある。月に100万トークン以下の使用量であれば、クラウドAPIの方が圧倒的に安い。一日数百万〜数千万トークンを処理するようになって初めて、ローカル運用のコスト優位が現れる。

まとめ

Llama 4は「オープンソースがプロダクションで使えるレベル」に達したことを示したマイルストーンだ。ただし、ローカル運用には相応のハードウェア投資と運用コストがかかる。

「データを外に出せない」「ファインチューニングが必要」「大量処理でコストを下げたい」——この3つのどれかに当てはまるなら、Llama 4の導入を真剣に検討する価値がある。それ以外の場合は、まずClaude 4やGPT-5のAPIを使う方が運用負担は少ない。