コンテキストウィンドウとは何か。なぜ長いと嬉しいのか

コンテキストウィンドウとは、AIが一度に読み込める文章の量のことだ。人間で言えば「作業机の広さ」に近い。机が広ければ広いほど、多くの資料を広げながら仕事ができる。AIも同じで、コンテキストウィンドウが大きいほど、長い文書を丸ごと理解した上で返答できる。

コンテキストウィンドウの「トークン」って何？

コンテキストウィンドウの大きさは「トークン」という単位で表される。トークンは単語や文字のかたまりで、英語では1単語がおよそ1〜2トークン、日本語では1文字が1〜2トークン程度になる。

たとえばClaude 3.5 Sonnetのコンテキストウィンドウは20万トークンで、これはおよそ文庫本1〜2冊分のテキストに相当する。GPT-4oは128,000トークン。数年前の初期モデルは4,000トークン程度だったことを考えると、急激に拡大している。

短いコンテキストウィンドウのAIに長い文書を渡すと、途中でぶつ切りになる。前半の内容を「忘れた」状態で後半を処理するので、一貫性のある返答が難しくなる。

長いコンテキストウィンドウがあると、以下のようなことができるようになる。

特にビジネス用途では、長文の議事録や仕様書を一括で処理できるかどうかが、実用性を大きく左右する。

よく混同されるが、コンテキストウィンドウはあくまで「今の会話の中での記憶」だ。会話を閉じてしまえばリセットされる。

最近のAIツールには「メモリ機能」を追加しているものもあるが、あれはコンテキストウィンドウとは仕組みが違う。メモリ機能は会話が終わった後も特定の情報を別で保存しておく仕組みで、コンテキストウィンドウとは独立している。

「長ければ長いほどいい」と思うかもしれないが、実際はそう単純ではない。コンテキストの量が増えるほど処理に時間とコストがかかる。また、コンテキストの中盤に書かれた情報はAIが参照しにくくなる「ロストインザミドル」という現象も報告されている。

重要な情報は冒頭か末尾に置くと、AIがより確実に参照してくれる。長いコンテキストを使うときは、不要な情報を詰め込みすぎないことも大切だ。

コンテキストウィンドウの拡大は今も続いていて、100万トークンを超えるモデルも登場している。これだけあれば、長編小説を丸ごと渡して「この登場人物の心理変化を分析して」というような使い方も現実的になる。

一方で、コンテキストが長くなるほど「何を渡すか」の設計が重要になってくる。AIに何でも突っ込めばいいわけではなく、必要な情報を的確に選んで渡すスキルが、AIをうまく使いこなす鍵になる。