GPT-5正式リリースで何が変わったか——Claude・Geminiとの性能差を実際に検証した

GPT-5リリースの概要と背景

OpenAIがGPT-5を正式に発表した。発表資料では「推論能力と長文理解において前世代から大幅に向上した」とされており、特にリアルタイムの思考プロセス（"extended thinking"）をユーザーが可視できる点が強調された。

リリース形態はChatGPT Plusおよびチームプランへの段階的展開と、API経由での提供が同時進行する形を取った。OpenAIとしては、o3シリーズで築いた推論モデルの資産をGPT-5に統合し、「汎用性と推論力を両立したモデル」として位置づけている。

Claude Opus 4.8（Anthropic）、Gemini Ultra 2（Google）が先行していた市場に後から入る形になったため、各社のモデルとどう差別化するかが今後の競争のカギになる。

価格体系の整理

まず比較の前提として価格を整理する。いずれも2026年6月時点のAPIレート（概算）だ。

GPT-5は入力$10/100万トークン、出力$30/100万トークン。これはClaude Opus 4.8（入力$15・出力$75）より出力コストで大幅に安く、Gemini Ultra 2（入力$7・出力$21）とはほぼ同等かやや高い水準だ。

OpenAIはChatGPT Plus経由での月額利用も提供しており、API費用の見積もりが難しい個人ユースやスモールチームにとっては定額プランのほうが実質的な選択肢になる。ビジネスのAPI利用ではコスト計算が必要で、出力トークンが多いタスクほどClaude Opus 4.8との差が開く。

コーディング——速さとテストカバレッジが目立つ

GPT-5をコーディング補助に使って最初に気づいたのは、コード生成の速度だ。他のモデルと同じプロンプトを投げたとき、GPT-5は最初の出力が早い。体感値だが、Opus 4.8より10〜15%ほど応答が速い印象がある。

コード品質については、GPT-5はデフォルトでテストコードを一緒に出してくる割合が高かった。「この関数を書いて」と指示するだけで、関数本体とユニットテストをセットで生成する傾向があり、テスト文化が根付いているチームにとっては好感触だ。

ただし、Claude Opus 4.8との比較でいうと、指示の意図を複数ターンのやり取りにわたって保持する精度ではOpusが上回った。GPT-5は途中で指示の文脈をリセットしたような回答を出すことが散見された。これはセッションの長さや複雑さによって顕在化する問題で、短い補完タスクでは気にならない。

Gemini Ultra 2はGCP関連のコード（BigQuery・Cloud Functions）で強みを発揮するが、それ以外の汎用コーディングではGPT-5とほぼ同等だった。

文書作成——スタイル調整の自由度が高い

文書作成でGPT-5が優れているのは、文体の調整指示への応答だ。「もっとカジュアルに」「箇条書きをやめて段落にして」「もう少し具体的なデータを足して」といった後付け指示に対して、出力全体のスタイルを一貫して変えてくる。

Claude Opus 4.8は同様の指示に対して「文章の質」は高いが、部分的な修正に留まることがある。GPT-5はより「ユーザーの指示に即した改変」を優先する傾向があり、ライターが草稿を仕上げる用途では使いやすい。

日本語の自然さについては、GPT-5とClaude Opus 4.8が拮抗しており、Gemini Ultra 2が若干後ろに来る印象だ。ただしこれはタスクの種類によって変わるため、「日本語全般でこの順」とは言い切れない。

論理推論——"extended thinking"は本物か

GPT-5が推している機能のひとつが、思考プロセスの可視化だ。複雑な問いに対して、モデルが推論を展開しながら答えに近づく過程を確認できる。

これを実際に試すと、確かに推論の分岐や前提確認が見えて「なぜこの答えが出たか」が追いやすい。特に法律的な判断や多条件の調整タスクでは、途中で誤りを自己修正する様子も観察できた。

Claude Opus 4.8も内部的に推論の深さを持っており、最終回答の質という意味では大差ない。可視化機能があるかどうかが、チームでの利用シーンや監査が必要な業務での使い勝手に影響する。

Gemini Ultra 2は推論タスクより大規模なコンテキスト処理を強みにしており、同じ土俵での比較は難しい。

画像理解——マルチモーダル性能の現状

GPT-5の画像理解は前世代（GPT-4o）から改善されており、複数画像を一度に入力して比較・分析するタスクが安定している。スライドのスクリーンショットを4枚貼り付けて「この資料全体のストーリー構造を解説して」という指示への回答精度は高かった。

Claude Opus 4.8の画像理解も良好で、図表の内容を数値まで正確に読み取る能力はほぼ同等だ。手書き文字を含むスキャン文書の読み取りはどちらも苦手で、専用のOCRツールには及ばない。

Gemini Ultra 2は動画フレームからの情報抽出という独自の強みがある。長い動画を入力できるのは現時点ではGeminiだけであり、この用途ではGPT-5はまだ競えない。

OpenAIの戦略とAnthropicとの競争構図

GPT-5のリリースは、OpenAIが「安全性より速度と汎用性」を前面に出す姿勢を強めた印象がある。Anthropicは「Constitutional AI」に基づく慎重な安全設計を一貫して訴求しており、エンタープライズ市場ではClaude系列を好む動きが根強い。

OpenAIはMicrosoftとの連携によってM365製品への統合を深めており、Microsoftのエコシステムを使う企業にはCopilot経由でGPT-5が自然に届く。一方AnthropicはAmazon・Googleとの提携を通じてクラウド経由のAPI提供を拡充している。

競争構図はモデル性能だけでなく、「どのエコシステムを使っているか」で選択が決まるフェーズに入っており、純粋な性能比較だけで選ぶユーザーは今後少数派になるかもしれない。

ビジネス利用での使い分け

3社のモデルをビジネス用途で使い分けるとすれば、以下の整理が現実的だ。

GPT-5は、文体調整が頻繁に必要なコンテンツ制作、テストコード付きの開発補助、Microsoftエコシステムとの連携に向いている。Claude Opus 4.8は、複雑な分析・長文ドキュメントの精読・コードの副作用検出など「深い理解」が必要な場面で使う。Gemini Ultra 2は、超長文コンテキスト処理やGoogle Workspaceを軸とした業務フローに向いている。

単一モデルに絞る必要はなく、用途で切り替えるのが今の最適解だ。

まとめ

GPT-5の登場でAI選択の幅はさらに広がったが、「GPT-5が全てにおいて最高」とはならなかった。文書スタイル調整とコード生成速度、そして思考プロセスの可視化は同世代モデルの中で際立っており、特定の用途では明確な選択理由になる。

競合モデルとの性能差は縮まり続けており、これからのAI選択は「性能比較」より「ワークフローへの統合コスト」と「エコシステムの相性」で決まる局面に入った。GPT-5のリリースは、その転換点をより明確にした出来事だったと言える。