はじめに——なぜ3週間使い続けたか

AnthropicがClaude Opus 4.8を発表したとき、ベンチマークの数字よりも「実務でどう変わるか」が気になった。高性能モデルはどれも発表時のデモは華やかだが、毎日の業務に組み込むと印象が変わることが多い。

今回は業務に実際に使いながら記録をつけた。対象タスクは大きく4つ——長文ドキュメントの読解・要約、コーディング支援、複雑な構成の文章生成、そしてリサーチとデータ整理。それぞれについて、GPT-4oとGemini Ultra 2との使い分けがどう変化したかを正直に書く。

長文理解能力——ここが一番の収穫だった

Claude Opus 4.8で最初に驚いたのは、長い文書に対する理解の質だ。PDFを読ませたり、長大なMarkdownドキュメントを貼り付けたりしたとき、要約の「粒度」が以前のモデルより細かくなっている。

具体的には、100ページ超の技術仕様書を読み込ませて「第3章と第7章の矛盾点を列挙して」というタスクを試した。GPT-4oは矛盾点を3つ挙げたが、そのうち1つは実際には矛盾ではなかった。Gemini Ultra 2は5つ列挙したが、説明が抽象的すぎて実務で使える形ではなかった。Claude Opus 4.8は4つを具体的な引用付きで指摘し、いずれも正確だった。

法律文書や契約書の読み込みにも使ったが、前提条件の確認や定義の参照が的確で、「読んでいない部分を補完して答える」という幻覚現象が明らかに少ない印象を受けた。

コンテキストウィンドウは200Kトークンで、Gemini Ultra 2の1Mトークンには及ばない。ただし量より精度重視なら、この200Kで十分なケースが多い。

コーディング支援——Claude Codeとの組み合わせで別次元になる

Claude Opus 4.8を単体でコーディングに使うと、他の高性能モデルとの差はそれほど大きくない。しかしClaude Codeと組み合わせると話が変わる。

Claude Codeはコードベース全体をコンテキストとして扱いながら、ファイルをまたいだ修正や依存関係の追跡ができる。そのバックエンドにOpus 4.8が入ることで、設計判断の精度が上がる。「このファイルのこの関数をリファクタリングして」という指示に対して、副作用を自分で検出して事前に報告してから修正に入る場面が増えた。

TypeScriptの型エラーへの対応も改善されている。型推論の説明が丁寧で、「なぜこの型にする必要があるか」まで踏み込んで説明する。これは後からコードを読む人間にとっても参考になる。

一方で弱点もある。特定のフレームワークの最新バージョン(2025年以降にリリースされたもの)への対応は学習データ依存で穴がある。未知のAPIについては自信を持って間違えることがあるため、外部ドキュメントを一緒に貼り付けるのが安全だ。

GPT-4oと比べると、コード生成の速度ではGPT-4oが速い。しかし修正のやり取りを繰り返すセッション全体で見ると、Claude Opus 4.8のほうが指示の意図をより長く保持してくれるため、最終的な完成までのラウンドトリップが少なくなることが多い。

日本語の品質——これは正直に差がある

日本語の文章生成に関しては、Anthropicの中でOpus 4.8は最高水準だが、他社比較では少し微妙な位置にいる。

自然な口語調の文章を生成させると、Claude Opus 4.8はGPT-4oよりわずかに硬い傾向がある。ビジネス文書ならその硬さがプラスに働くが、メディア向けの読みやすいコピーを書かせると、GPT-4oのほうが「すっと入る文章」を出してくることが多い。

ただし「内容の正確さ」と「論理の一貫性」は別の話だ。長い文章を書かせたとき、後半で前半と矛盾する記述が出てくる頻度は、Claude Opus 4.8が最も低かった。SEO記事やホワイトペーパーのような長尺コンテンツでは、この安定性は実際の作業時間短縮につながる。

推論の深さ——複雑な判断タスクでこそ差が出る

Claude Opus 4.8の真価が最も出るのは、「答えが一つに定まらない複雑な問題」を扱うときだと感じた。

例えば「このビジネスモデルの5年後のリスクを分析して」というような問いに対して、前提条件を整理してから複数のシナリオを提示し、それぞれの確率と影響度を整理する——という構造的な回答を出す頻度が高い。GPT-4oは同じ問いに「網羅的に要因を列挙する」スタイルで答えることが多く、どちらが使いやすいかはタスクの性質による。

戦略立案や複数の選択肢の評価が必要な業務では、Opusの「構造化された深い推論」が時間あたりの生産性に直結する。

コストパフォーマンス——正直に言うと「選択的に使う」が正解

Claude Opus 4.8のAPI価格は入力$15/100万トークン、出力$75/100万トークンと高い。3週間の実費を計算すると、同じタスク量をSonnetクラスで処理した場合の4〜6倍のコストになった。

ではOpusを使い続けるかというと、答えはノーだ。実際の運用として最適なのは以下の使い分けだと感じている。

  • 重要な判断・複雑な分析・長文理解が必要なタスク → Opus 4.8
  • 定型的な文章生成・短いコード補完・翻訳 → Sonnetクラス
  • Claude Codeのエディタ補助 → Sonnetで十分なことが多い

ビジネスで使う場合、全タスクをOpusに投げるのはコストが見合わない。「このタスクにOpusの推論深度が本当に必要か」を意識的に判断する習慣が必要になる。

Gemini Ultra 2との使い分けはどうするか

3週間を通じて、Gemini Ultra 2とClaude Opus 4.8の使い分けは明確になってきた。

Gemini Ultra 2が優位なのは、超長文のコンテキスト処理(1M+トークン)と、Google Workspaceとの連携だ。複数の長大なレポートを一度に比較させるような作業ではGemini Ultra 2のほうが向いている。

一方でClaude Opus 4.8は、論理の一貫性・指示への忠実度・コーディング時の副作用検出でリードしている。

どちらか一方を選ぶ必要はなく、タスクの性質で使い分けるのが現実的な解答だ。

まとめ

Claude Opus 4.8は「何でも最高」ではないが、「複雑な問題を深く考えさせる」用途ではコストに見合う価値がある。特にClaude Codeとの組み合わせは、コードベース全体への理解を前提とした設計判断で実力を発揮する。

3週間使って最終的に残った判断は「Opusを使う場面を絞る」だった。全タスクに投入するのではなく、他のモデルで代替できない判断・分析・コードレビューの場面に集中させることで、コストと品質のバランスが取れる。高性能モデルとの付き合い方は、使う場面を選ぶことから始まる。