Gemini 2.5 Ultraを試した——Googleの最強モデルはClaude 4に勝てるか

Gemini 2.5 Ultraの登場と位置づけ

GoogleはGemini 2.5 Ultraを「これまでで最も高性能なGeminiモデル」として投入した。2025年中盤にGemini Advanced加入者向けに順次公開され、APIでも利用可能になっている。

GeminiシリーズはUltra・Pro・Flashという3層構成を取っており、UltraはAnthropicのOpus、OpenAIのGPT-5に対応するフラグシップ相当だ。価格もそれに見合い、API利用では入力$7/100万トークン程度と高めに設定されている。

Googleの発表資料では、Gemini 2.5 UltraはMMLU（知識テスト）・HumanEval（コーディング）・GSM8K（数学推論）のいずれでもGPT-4oやClaude 3.5 Sonnetを上回る結果を出している。

ただし、ベンチマークは「そのモデルが特に得意な問題セット」での結果であることに留意が必要だ。Googleは自社モデルが得意な評価指標を選ぶインセンティブがある。実際に使ってみると数字から受ける印象と乖離することは珍しくない。

Gemini 2.5 Ultraの日本語能力は明らかに向上しており、自然な文体での文章生成では以前のGeminiシリーズとは別物の品質になっている。しかしClaude 4 Sonnetと比べると、「助詞の選び方」や「文のリズム」においてまだ差を感じる場面がある。

ビジネスメール・議事録・レポートの骨格生成程度なら十分実用的だが、読者に見せるコピーや文章の最終仕上げには人間の修正が必要なケースが多い。

これはGemini 2.5 Ultraの明確な強みだ。コンテキストウィンドウが最大1Mトークンと非常に大きく、長大なPDFや複数の資料を一度に入力して横断的に分析させることができる。

法律事務所での利用を想定した場合、50ページ超の契約書を複数まとめて比較・差分抽出するようなタスクでは、Gemini 2.5 Ultraのコンテキスト処理能力は実際の業務価値を持つ。

HumanEvalのスコアは高いが、実際にプロジェクトで使ってみると、Claude 4との差はそこまで大きくない。どちらも「よく見かけるパターンのコード」は得意で、「特殊なアーキテクチャや独自ライブラリとの組み合わせ」では精度が落ちる。

Google Cloud環境（BigQuery・Cloud Functions・Firebase）のコードを書かせると、さすがに自社製品の知識が豊富で使いやすかった。GCPを主軸にしている組織にとっては、この点だけでGemini選択の理由になりえる。

Gemini 2.5 UltraはClaude 4と同様に「考え込む」ような処理が得意になってきている。複数ステップの問題解決、前提条件の整理、矛盾を指摘して正しい方向を提示する——これらはどちらも同水準に近づいている。

一方でAnthropicのClaude 4は「指示への忠実度」が高く、制約を守って出力する安定性では上回る。

Geminiならではの強みは、Google Workspaceとの統合だ。Googleドキュメント、スプレッドシート、Gmailへの直接アクセスは、Claudeには現時点でない能力だ。組織全体がGoogle Workspaceで動いているなら、ここが決定的な差になる。

「全体的にどちらが上か」という問いへの答えは「タスクによる」という凡庸なものになる。しかし差を整理すると：

Gemini 2.5 Ultraは、Googleのエコシステムに乗っている組織にとって非常に魅力的な選択肢だ。Workspaceとの連携と巨大なコンテキストウィンドウは、他のモデルが追いつけていない実用的な強みになっている。

ただし「Claude 4に総合的に勝つ」とは言えない現状があり、特に日本語業務中心の環境ではClaude 4のほうが安定した結果を出しやすい。自社の主要ツールとタスクの種類で判断するのが正解だ。