Codexの歴史——誕生から廃止まで

OpenAIのCodexは2021年にリリースされた、初期のコーディング特化型LLMだ。GPT-3をベースにGitHubのコードで追加学習させたモデルで、GitHub Copilotの初期エンジンとして広く知られていた。

しかし2023年3月、OpenAIはCodexのAPIを正式に廃止した。理由として挙げられたのは「GPT-4がCodexの能力をすべて包含し上回った」という点だ。汎用大規模モデルがドメイン特化モデルを追い越す、という現象がここで明確に起きた。

Copilotはその後GPT-4ベースに移行し、Codexという名前は事実上消えた。

2025年、Codexが戻ってきた理由

ところが2025年に入り、OpenAIは「Codex」という名称をCloudコーディングエージェントとして再定義して復活させた。これは単なるモデルの名前ではなく、「コードを書いて実行して検証する」エージェント的なワークフローを指している。

背景にあるのはAIコーディングエージェント市場の急拡大だ。AnthropicのClaude Code、GitHubのCopilot Workspace、Cursorの台頭など、「モデルが直接コードを書いてリポジトリを操作する」ユースケースが現実のものになったことで、OpenAIもこの領域に本格参入する必要が生じた。

新しいCodexはGPT-5をバックエンドに持ち、クラウド上でサンドボックス環境を起動してコードを実行・デバッグ・テストするところまで自律的に行う。

Claude Codeとの技術的な違い

両者の最大の違いは「どのレベルで開発環境に統合されているか」だ。

Claude Codeは開発者のローカル環境で動き、実際のターミナルとファイルシステムに直接アクセスする。これはリアルの開発フローに近いが、セキュリティ的には「AIがローカルに触れる」という覚悟が必要になる。

新しいCodexはクラウドのサンドボックス上で動く。コードはそこで実行され、結果だけが返ってくる。ローカル環境を汚さない安全性がある一方、既存のプロジェクト構成やローカルの設定ファイルとの連携には一手間かかる。

処理の流れ

Claude Codeはプロンプトを受け取ってツール(ファイル読み書き、コマンド実行)を使いながらタスクをこなし、逐次的に状態を更新する。エラーが出たら自分で対処しようとする「反復的な自律エージェント」だ。

Codexはタスク全体をクラウドのジョブとして受け取り、完了した結果(コード差分やPR)を返す「バッチ型エージェント」に近い。長時間かかる処理を非同期で投げたいケースに向いている。

実際のコーディング性能評価

2025年時点でのCodexをSWE-Benchで比較すると、Claude 4 SonnetとGPT-5ベースのCodexは拮抗している状態だ。どちらも「現実のGitHubリポジトリのissueを自律的に解決できる割合」が40%台後半から50%台に入ってきており、プロダクションで使える場面が増えている。

使い分けとしては、既存のローカルプロジェクトを継続的に開発するならClaude Code、新機能のプロトタイプを安全な環境で素早く試したいならCodexの組み合わせが現実的だ。

ビジネスでの活用可能性

Codexが実務で刺さるのは「非エンジニアがコードを書いてほしい」場面だ。例えばマーケティング担当者がダッシュボードのスクリプト修正を頼む、データアナリストが定型の前処理コードを生成させる、といったユースケースでは、ローカル環境の設定不要なクラウドベースの方が導入障壁が低い。

エンジニアチームがいる企業にとっては、Claude CodeとCodexを状況に応じて使い分ける選択肢が現実的になってきている。どちらも「コードを書くだけ」でなく「リポジトリ操作まで含めた自律的な開発タスク」を担えるレベルに近づいている。

まとめ

Codexの復活は単なるブランド名の再利用ではなく、AIコーディングエージェントという新しいカテゴリへのOpenAIの参入を意味する。Claude Codeとの競合が本格化することで、両ツールの機能向上のペースが上がることが期待できる。

現時点での選択は「ローカル統合vs.クラウドサンドボックス」という軸で考えると整理しやすい。どちらが優れているというより、使う場面が違う。両方試してみる価値はある。