動画サブスクサービスのA/Bテストをインハウスで自動化——AIツールの組み合わせ方

A/Bテストの「前工程」が重かった

サブスク型の動画配信サービスでは、コンバージョン率の改善にA/Bテストが欠かせない。LPのキャッチコピー、料金プランの表示順、CTAボタンの文言、メールの件名——試せることはいくらでもある。

問題は「前工程」の重さだ。どの仮説を立てるか、テキストのバリエーションをどう作るか、実装コードをどう書くか——これらに時間がかかり、1つのテストを回せる件数が限られていた。

AIツールを組み合わせることで、この前工程を大幅に効率化できた事例を紹介する。

活用したAIツールの役割分担

今回の取り組みでは、複数のAIツールを役割で使い分けた。

ChatGPT（GPT-4o）：ブレインストーミング、仮説の発散
Claude：コピーの精査、文章の磨き込み
Claude Code：テスト実装コードの生成、分析スクリプトの作成
Perplexity：競合の事例調査、業界トレンドの調査

ワークフローの全体像

ステップ1：仮説のブレインストーミング（ChatGPT）

テストしたいページと現在のデータを伝えて、改善仮説を出させる。

現状:
- 無料トライアル申込ページのCVR: 8%
- 直帰率: 65%
- モバイル比率: 72%

仮説を20個出して。コピー・レイアウト・価格表示・社会的証明の各カテゴリで

GPT-4oは発散が得意で、思いつかないような角度からの仮説も出てくる。

ステップ2：コピーの精査と磨き込み（Claude）

ChatGPTで出た仮説の中から有望なものを選び、Claudeでコピーを磨く。Claudeは文章の精度が高く、「読んで違和感がない文章」を出す安定感がある。

以下のキャッチコピー候補をそれぞれ3パターン作って。
ターゲットは30代の映画好き。時間がないが映画は週1は観たい層。

候補:
- 「月額1,000円で、映画館に行く回数が変わる」
- 「試して気に入らなければ、いつでもやめられる」

ステップ3：実装コードの生成（Claude Code）

コピーが決まったら、A/Bテストの実装コードをClaude Codeに作らせる。Next.jsで運用しているサービスで、ABテストの振り分けロジックを組み込む部分だ。

以下のA/Bテストを実装するReactコンポーネントを作って。

- テストID: trial_cta_v2
- バリアントA（コントロール）: 「無料で始める」
- バリアントB（チャレンジャー）: "14日間、無料で試す"
- 振り分けロジック: ユーザーIDのハッシュで50:50
- イベント計測: クリック時にGTMへdataLayerプッシュ

Claude Codeは既存のコードベースを読んでから実装するため、既存のコンポーネントスタイルに合ったコードが出てくる。手書きで実装するより速く、命名規則もプロジェクトに合う。

ステップ4：結果分析スクリプトの作成（Claude Code）

テスト終了後の分析もClaude Codeを使う。BigQueryやGoogleアナリティクスから取得したデータを渡して、統計的有意差の計算と結果レポートの生成をスクリプト化した。

from scipy import stats
import pandas as pd

def analyze_ab_test(control_data: pd.DataFrame, treatment_data: pd.DataFrame) -> dict:
    control_cr = control_data["converted"].mean()
    treatment_cr = treatment_data["converted"].mean()
    
    # カイ二乗検定
    contingency = pd.crosstab(
        pd.concat([control_data["group"], treatment_data["group"]]),
        pd.concat([control_data["converted"], treatment_data["converted"]])
    )
    chi2, p_value, _, _ = stats.chi2_contingency(contingency)
    
    return {
        "control_cvr": f"{control_cr:.2%}",
        "treatment_cvr": f"{treatment_cr:.2%}",
        "lift": f"{(treatment_cr - control_cr) / control_cr:.1%}",
        "p_value": round(p_value, 4),
        "significant": p_value < 0.05
    }

インハウス化できた範囲

このワークフローを3ヶ月運用した結果、以下の作業がインハウスで回せるようになった。

仮説出しとコピー作成：外部のコンサルタントに依頼していたが不要に
テスト実装：開発チームへの依頼から自チームでの実装に
結果分析：分析専任者への依頼から担当マーケターが自分で実施に

月あたりで回せるテスト件数が2〜3件から7〜8件に増加した。

まとめ

A/Bテストの自動化は「AIツールで全部できる」ではなく、「前工程の重い部分をAIで軽くする」という考え方が現実的だ。ChatGPTで発散し、Claudeで磨き、Claude Codeで実装する——この役割分担が確立すると、マーケチームだけでテストサイクルを回せるようになる。サブスク系サービスのように継続的な改善が命綱のビジネスでは、テスト速度が直接的な競争優位につながる。