LLMのトークン価格はここ3年でどれだけ下がったか——GPT-4から現在まで

2023年のGPT-4登場時、トークン価格はどれほど高かったか

GPT-4が一般公開された2023年3月、その価格は入力トークン1,000件あたり0.03ドル、出力トークン1,000件あたり0.06ドルだった。現在の感覚では信じがたいほど高い。

当時、1万トークンの会話（約7,500〜8,000文字相当）を1回やり取りするだけで数十円のコストがかかった。ビジネス用途に使おうとすると月間APIコストがすぐに数万円規模になり、スタートアップが「GPT-4を使ったサービスを作りたいが採算が合わない」と悩むケースが続出した。

その状況が、わずか3年で大きく変わった。

トークン価格の推移——主要モデルの変遷

2023年：GPT-4の衝撃と高コスト時代

GPT-4（gpt-4-0314）のリリース直後は前述の通り高価だった。一方でGPT-3.5-turboは入力0.002ドル/1Kトークンという低価格で、能力のわりに安い選択肢として人気を集めた。多くの開発者は「GPT-4品質は欲しいがコストを抑えたい」というジレンマを抱えていた。

2024年：マルチモデル競争が価格を押し下げる

2024年はAIモデル市場の競争が激化した年だ。Anthropicのclaude-3-haikuは高速・低コストのポジションを確立し、Google GeminiやMistralも価格競争力の高いモデルを投入した。

最も象徴的な出来事は2024年5月のGPT-4oの発表だ。GPT-4相当の能力を持ちながら価格を大幅に引き下げ、入力5ドル/1Mトークン、出力15ドル/1Mトークンというレートを示した。1Mトークンあたりの表記に切り替わったのも、価格水準が下がったことを示している。

2025年：DeepSeekショックとさらなる価格競争

2025年初頭、DeepSeek R1が米国市場に衝撃を与えた。GPT-4に匹敵する推論能力を持ちながら、API価格は1/10以下という水準を示し、既存プレイヤーへの値下げ圧力が一気に高まった。

OpenAIはGPT-4oのキャッシュ対応プロンプトの価格を引き下げ、AnthropicもClaude 3系のプロンプトキャッシング機能を拡充した。「いかに安く高品質を提供するか」という競争が加速した時期だ。

2026年：実用クラスが1ドル以下/1Mトークンへ

2026年現在、実用に耐える中クラスのモデルは入力1ドル/1Mトークン以下が標準になりつつある。GPT-4o miniやClaude 3 Haikuのような「スモールモデル」は0.1〜0.2ドル/1Mトークン台まで下がっており、大量処理アプリケーションでも現実的なコストで運用できるようになった。

トップクラスの旗艦モデル（GPT-5やClaude 4 Opus）は依然として高めだが、それでも2023年のGPT-4と比較すれば1/10程度の水準だ。

価格下落の要因

価格が急落した背景には複数の要因がある。

まずモデルの効率化だ。同じ性能を出すために必要な計算量が年々減っており、推論コストが下がっている。量子化・蒸留・アーキテクチャ改善の積み重ねがここに効いている。

次に競争圧力だ。DeepSeekが示したように、中国モデルの台頭が米国勢への価格引き下げ圧力になっている。MistralやCohere、各クラウドプロバイダーのマネージドLLMも競争に加わり、価格競争は今後も続く見込みだ。

さらにハードウェアコストの低減もある。NvidiaのGPU出荷量増加とAMDの台頭、さらにGoogleのTPUやAmazonのTrainiumといった専用チップの進化が推論コストを押し下げている。

実践的なコスト計算例

月間10万回のチャット応答を提供するサービスを仮定して計算してみる。1回のやり取りで入力2,000トークン・出力500トークンを使うとする。

月間トークン量：入力2億トークン + 出力5,000万トークン

2023年のGPT-4レートで計算すると：

入力：200,000 × 0.03ドル = 6,000ドル
出力：50,000 × 0.06ドル = 3,000ドル
合計：約9,000ドル（月）

2026年の中クラスモデルで計算すると：

入力：0.2ドル/1Mトークン × 200 = 40ドル
出力：0.4ドル/1Mトークン × 50 = 20ドル
合計：約60ドル（月）

同じ処理量で150分の1以下のコストになっている計算だ。

2026年の選定基準

コストだけでモデルを選ぶ時代は終わっている。速度・精度・コンテキスト長・マルチモーダル対応・レイテンシの組み合わせで選ぶのが現実的だ。

ただし「とりあえず旗艦モデル」という選択は、コスト効率の観点から見直す余地が大きい。タスクを分類して、シンプルな処理は小型モデル、複雑な推論が必要な場合のみ高性能モデルを使うルーティング設計を採用するだけで、コストを数分の一に抑えられることが多い。

まとめ

LLMのトークン価格は2023年から2026年の3年間で劇的に下落し、同品質の処理コストが1/10から1/150になったケースもある。この変化は生成AIサービスの採算性を根本から変えた。今後も競争と技術革新により価格は下がり続ける見込みで、コスト計算の見直しとモデル選定の最適化は定期的に行う価値がある。