AI安全性の課題
大規模言語モデルは、有害なコンテンツの生成・差別的な発言・プライバシー侵害・危険な情報の提供といったリスクを持つ。これらのリスクを減らしながら、有益で誠実な回答を生成するようにモデルを調整することを「アライメント」と呼ぶ。
Anthropicはアライメントの研究を中心に据えた企業として設立され、Claudeシリーズに独自の安全設計「Constitutional AI(CAI)」を採用している。
Constitutional AIとは何か
基本的なアイデア
Constitutional AI(憲法的AI)は、Anthropicが2022年に発表した手法だ。名前の「Constitution(憲法)」が示す通り、AIが守るべき原則のリストを「憲法」として定義し、その原則に基づいてモデル自身が自分の回答を評価・修正するアプローチだ。
憲法には「有害なコンテンツを生成しない」「人種・宗教・ジェンダーに基づく差別的な発言を避ける」「人間の自律性を尊重する」「誠実で正確な情報を提供する」といった原則が含まれる。これらはAnthropicが定義したものだが、原則自体は人間の監視下でレビューされ、透明性が確保されている。
従来のRLHFとの違い
CAIを理解するには、従来のRLHF(人間フィードバックによる強化学習)との比較が有効だ。
RLHFでは、モデルが複数の回答候補を生成し、人間のアノテーターが「どちらの回答が良いか」を評価する。その評価データを使って報酬モデルを訓練し、報酬モデルの評価が高い回答を出すようにLLMを強化学習で調整する。
RLHFの課題は、スケーラビリティだ。モデルが巨大化し、生成できる回答の量と多様性が増すにつれ、人間のアノテーターが評価しなければならないデータ量も膨大になる。また、アノテーターの主観・文化的背景・疲労によって評価のばらつきが生じる。
CAIのプロセス
CAIはこのスケーラビリティ問題に対処するため、評価プロセスの一部をAI自身に担わせる。具体的には次の2フェーズで構成される。
第1フェーズは「SL-CAI(Supervised Learning with CAI)」だ。まずモデルに問題のある回答を生成させ、次に「この回答は原則Xに違反していないか?」とモデル自身に問いかける。モデルが原則違反を指摘したら、より良い回答を再生成させる。この「自己評価→自己修正」のサイクルで得られたデータを使って教師あり微調整を行う。
第2フェーズは「RL-CAI(Reinforcement Learning with CAI)」だ。報酬モデルの学習に、人間のアノテーターだけでなく、AIが原則に基づいて評価したフィードバックも使う。これを「RLAIF(AI Feedback による強化学習)」と呼ぶ。人間だけでは実現できないスケールで、多様なシナリオでの評価が可能になる。
なぜ安全性が高まるのか
原則の明文化による一貫性
RLHFでは「何が良い回答か」の基準が、アノテーターの暗黙の判断に委ねられる。一方CAIでは、守るべき原則が明文化されているため、評価の一貫性が高まる。「この回答は誠実か」「この情報は有害ではないか」という軸が明確なため、境界ケースでのブレが少なくなる。
自己評価能力の訓練
CAIを通じて訓練されたClaudeは、「自分の回答が問題を含んでいないか」を評価する能力を持つ。単に「良い回答を生成する」のではなく、「生成した回答を批判的に評価して修正する」という高次のスキルが身につく。
透明性
AnthropicはConstitutionの内容を公開している。どのような原則でモデルが訓練されているかを外部から確認できる透明性は、企業や政府が利用する際の信頼性の根拠になる。
Constitutional AIの限界
原則がどれだけ慎重に設計されていても、すべてのケースを網羅することはできない。「有害かどうか」の判断が文化・文脈によって異なるケースや、原則間が矛盾するケースも存在する。
また、AIが自分の回答を評価するという自己参照的なプロセスは、AIのバイアスがそのまま評価にも影響するという課題を持つ。
Anthropicはこれらの課題を認識しており、継続的な研究と人間の監視を組み合わせるアプローチを取っている。
Claudeへの実装
Claudeの性格——誠実さ(Honesty)・有益さ(Helpful)・無害性(Harmless)の3原則は、CAIの訓練プロセスを通じて形成されたものだ。Claude 3以降では「Character」という概念が強化され、単なる安全フィルターではなく、モデルの価値観として組み込まれている。
「有害な依頼を断る」だけでなく、「なぜ断るかを説明する」「代替案を提案する」という応答スタイルも、Constitutional AIが形成した特性だ。
まとめ
Constitutional AIは、AIが守るべき原則の「憲法」を定義し、モデル自身が自分の回答をその原則で評価・修正するアプローチだ。RLHFの人間評価を補う形でAIフィードバックを活用し、スケーラブルな安全訓練を実現している。原則の明文化による一貫性と透明性がClaudeへの信頼の土台となっており、AI安全性研究の重要な成果の一つとして広く参照されている。