マルチモーダルモデルの仕組み——テキストと画像を同時に扱う技術の基礎

マルチモーダルとは何か

「マルチモーダル」とは、複数の種類（モダリティ）の情報を扱えることを指します。テキストだけのモデルに対して、画像・音声・動画なども同時に入力・出力できるモデルをマルチモーダルモデルと呼びます。

GPT-4oが画面のスクリーンショットを見て操作を指示したり、Claudeが論文の図表を読み解いたりできるのも、このマルチモーダル能力があるからです。

テキストを処理するTransformerの基本

まず、テキスト処理の基礎を理解しましょう。Transformerは文章をトークン（単語や文字の断片）に分割し、各トークンをベクトル（数値の配列）に変換します。このベクトルを「Self-Attention」と呼ばれる仕組みで相互に関連付けながら文脈を理解します。

マルチモーダルモデルは、このテキスト用Transformerに「画像の情報を同じベクトル空間に変換する仕組み」を追加したものです。

Vision Transformer（ViT）の仕組み

画像をTransformerで扱うために考案されたのがVision Transformer（ViT）です。

パッチ分割

画像をそのまま扱うのは計算量が膨大になるため、ViTでは画像を小さな正方形（パッチ）に分割します。たとえば224×224ピクセルの画像を16×16のパッチに分割すると、14×14＝196個のパッチが生まれます。

パッチをトークンとして扱う

各パッチをフラット化してベクトルに変換します。これをテキストのトークンと同じように扱い、Transformerに入力します。画像を「196個の視覚トークン」として処理するわけです。

位置情報の付加

どのパッチがどの位置にあるかを学習させるために、位置エンコーディングを各パッチベクトルに加算します。

テキストと画像の統合方法

視覚情報とテキスト情報を1つのモデルで扱うには、両者を同じ「次元数のベクトル」に変換して結合する必要があります。主なアプローチが3つあります。

Early Fusion（早期統合）

テキストトークンと画像トークンを同じシーケンスに並べて、1つのTransformerで一括処理します。GPT-4oやClaudeはこのアプローチに近く、テキストと画像のトークンが相互にAttentionできるため文脈理解が深まります。

Cross-Attention（クロスアテンション）

テキストモデルと画像モデルを分けておき、Cross-Attentionレイヤーで「テキストが画像のどこを見るべきか」を動的に選ばせます。

Projection Layer（投影層）

画像エンコーダーで得たベクトルを、LLMの埋め込み空間に線形変換で射影します。LLaVAなどのオープンソースマルチモーダルモデルがよく使う方法です。

GPT-4o・Gemini・Claudeの違い

各モデルの詳細なアーキテクチャは非公開ですが、公開情報と研究論文から読み取れる違いがあります。

GPT-4o

テキスト・音声・画像を最初から統合して学習した「ネイティブマルチモーダル」モデルとOpenAIは説明しています。以前のGPT-4Vが画像専用エンコーダーを後付けしていたのに対し、GPT-4oはモダリティをまたいだEndtoEndの学習を重視しています。音声の入出力もリアルタイムで行えます。

Gemini

GoogleがGemini 1.0の段階から「ネイティブマルチモーダル」と位置づけており、テキスト・画像・音声・動画・コードを同一アーキテクチャで処理すると発表しています。Gemini 1.5からはコンテキストウィンドウが100万トークンに拡張され、長い動画をそのまま入力できる点が特徴です。

Claude（Anthropic）

Claude 3シリーズからマルチモーダルに対応しました。画像理解の精度が高く、図・表・スクリーンショットの解析を得意とする評価があります。技術論文を読んでグラフを解説する、UI画面を見てコードを書くといった用途での評価が高いです。

解像度とトークン数のトレードオフ

マルチモーダルモデルを使う際に重要なのが「画像トークン数」の管理です。高解像度の画像はより多くのパッチに分割されるため、消費トークン数が増えてコストが上がります。

たとえばClaudeでは、画像のサイズに応じて自動的にリサイズが行われ、最大1568トークン程度に抑えられます。スクリーンショットなど細部の読み取りが必要な場合は高解像度が必要ですが、単純な被写体確認であれば圧縮してもほとんど精度が落ちません。用途に合わせて解像度を調整することがコスト最適化につながります。

まとめ

マルチモーダルモデルの核心は、画像をパッチトークンに変換してテキストと同じ空間で処理する点にあります。Early FusionかCross-AttentionかProjectionかという実装の差が、文脈理解の深さや処理速度に影響します。GPT-4o・Gemini・Claudeはそれぞれ独自の最適化を施していますが、いずれも「画像もテキストも同じ土俵で扱う」という方向に進化しています。