なぜAIウォーターマークが必要とされているか

2024年以降、画像・動画・テキストの生成AIが一般に普及したことで、「これはAIが作ったものか、人間が作ったものか」を判別することが難しくなった。選挙介入、フェイクニュース、著作権問題といった社会的影響が顕在化するなかで、生成コンテンツを識別・追跡する技術への需要が高まっている。

AIウォーターマークとは、AI生成コンテンツに目に見えない形で情報を埋め込み、後から検出することを可能にする技術の総称だ。実装の方法はいくつかあり、それぞれに強みと限界がある。

C2PA——業界標準のデジタル署名規格

C2PA(Coalition for Content Provenance and Authenticity)は、MicrosoftとAdobeが中心となって策定したコンテンツ認証の業界規格だ。Intel、Sony、BBC、Reuters、Getty Imagesなど100社以上が参加している。

C2PAの仕組みは電子署名に近い。コンテンツを生成・編集した際に、その操作の履歴(誰がいつどのツールで生成・編集したか)をメタデータとして記録し、デジタル署名で改ざんを防ぐ。閲覧者はツールやブラウザ拡張を使ってこのメタデータを確認できる。

AdobeはPhotoshop・Firefly・Premiere Proに「コンテンツ認証情報」としてC2PAを実装済みだ。OpenAIのDALL-E 3やMicrosoftのDesignerも対応しており、生成した画像にC2PAメタデータが自動付加される。

C2PAの課題

C2PAの弱点はメタデータが剥ぎ取られやすい点だ。画像をスクリーンショットで保存したり、SNSにアップロードする際に圧縮・リサイズされたりすると、メタデータが失われることが多い。あくまで「元ファイルに情報が残っている」前提の技術であり、流通経路で情報が消えてしまえば検証できなくなる。

SynthID——Googleが開発する知覚的ウォーターマーク

GoogleのDeepMindが開発したSynthIDは、異なるアプローチを取っている。画像の各ピクセルにごくわずかな変動を加えることで、人間の目には見えないが統計的に検出可能な「透かし」を埋め込む技術だ。

C2PAがメタデータとして外部に情報を持つのに対し、SynthIDはコンテンツ自体に情報を刻む。そのためスクリーンショットや圧縮に対してある程度耐性がある。Googleが公表したデータでは、軽度のトリミングや圧縮を経ても検出精度を維持できるとしている。

SynthIDは当初Imagen(Google画像生成モデル)向けに提供され、2024年にはテキスト・音声にも対応範囲が拡大された。テキストの場合、語の選択順序やトークンサンプリングのパターンにシグナルを埋め込む手法を取っている。

SynthIDの限界

SynthIDはGoogleのモデルで生成したコンテンツにのみ対応している。他社のモデルが生成したコンテンツには対応しておらず、汎用の検出ツールとしては機能しない。またテキストの場合、文章を大幅に書き換えると検出精度が落ちる。

テキストのAIウォーターマーク

テキストのウォーターマークは画像より難しい。いくつかのアプローチがある。

一つは「グリーンリスト法」と呼ばれるもので、LLMがトークンを選択する際に、ランダムなサブセット(グリーンリスト)のトークンを優先的に選ぶよう誘導する。生成されたテキストにはグリーンリストトークンの比率が高くなり、統計的に検出できる。University of Marylandの研究チームが2023年に提案した手法だ。

ただしこの手法も書き換えに弱く、パラフレーズされると検出精度が低下する。また長い文章より短い文章のほうが検出しにくい。

2026年現在の実態

技術的に最も現実的な選択は、C2PAとSynthIDを組み合わせた多層防御だ。C2PAで生成元の情報を署名として保持しつつ、SynthIDのような知覚的ウォーターマークで内容自体にシグナルを埋め込む。どちらか一方が失われても、もう一方で検証できる可能性を高める設計だ。

ただし業界標準が分散していることが普及の壁になっている。C2PAを採用していない生成AIサービスも多く、AIが生成したすべてのコンテンツをウォーターマークで識別できる状態には程遠い。

EUのAI Actは生成AIコンテンツへのウォーターマーク付加を義務化する方向で議論が進んでおり、法規制による普及促進が現実的な解になりつつある。米国でもNISTがガイドラインの策定を進めている。

まとめ

AIウォーターマーク技術はC2PA・SynthID・テキストウォーターマークといった複数のアプローチで急速に進化している。しかしどの技術も単独では完全ではなく、流通経路での情報消失や書き換えへの耐性に課題が残る。業界標準の統一と法規制の整備が、技術普及の鍵を握っている。AIコンテンツを扱う企業や個人は、これらの技術動向を把握した上で、適切な認証・開示の方針を持つことが求められる時代だ。