初めまして。大学時代のあだ名は「ゲーリーグッドリッジ」。そう、私です。

お客様のCVRを高めていくにあたり、いろいろなA/Bテストを提案して実施するのですが、実はA/Bテストって奥深いの知ってましたか?

そもそもA/Bテストとは?

A/Bテストの基本的な考え方は、

・現在の状態を「A」
・何か変更を加えた状態を「B」

として、AとBのパターンのどちらが、より効果的かを比較するという画期的な手法です。

実施方法としては、時間差でのA/Bテストと同時A/Bテストの2つが代表的なものです。

時間差A/Bテストとは

AとBそれぞれの測定期間(1週間ずつなど)を決め、Aを1週間実施した後にBを1週間実施し、2つの効果の違いを測定する方法。

同時A/Bテストとは

サーバーなどシステム上の設定により、同一期間内に一定の割合でAとBの両コンテンツをランダムに振り分けて配信する方法。

時間差A/Bテストの方は、季節要因や外部要因などを考慮する必要があるため、同時A/Bテストの方が結果の信頼度は高いといわれています。

結果を鵜呑みにしていませんか?

例えば、以下のような同時A/Bテストを実施した場合。

「TOPページのメインバナーのクリエイティブテストを1週間実施」

結果は・・・
・AバナーCTR(クリック率) 5%
・BバナーCTR(クリック率) 6%

結果だけ見れば、Bバナーの方がよくクリックされているわけだから、Bバナーを採用した方が良い、となります。

ですが、「統計的有意性」、「差の有意性」といった言葉を聞いたことはないでしょうか。これは「●%の確率で出てきた数値差に意味があるかサンプル数を元に判断する」というものです。

簡単にいえば、「テスト結果は今後も変わることはあるのではないか」ということを調べる作業です。

今回のケースで考えた時、Bバナーが6%というAバナーの5%よりも良い結果がでましたが、仮にそれぞれのサンプル数が10人ずつだとしたら、もう1週間ABテストを継続した場合、結果は変わる可能性があります。

サンプル数が少ない状態での結果は誤差の範囲内である可能性がある為、その状態での結果を基に判断するのは非常に危険です。

C

結果を見極めるには・・・

では、どの程度のサンプル数があれば、結果を見極められるのか。一般的には、それぞれのパターンで1,000以上のサンプル数があれば、信頼度の高い結果といわれています。

また、「テスト結果は今後も変わることはないか」を調べようと思ったら、Google先生に「有意差検定 ツール」と聞けば、簡単に調べられるツールがでてきます。

それらのツールを活用して、結果を見極めていくことも、時には必要だと思います。

ただ、いかに信頼度の高い結果であることがわかったとしても、世の中のありとあらゆる物は絶えず変化しています。

過去の結果に固執すること無く、その時々で何がベストなのかを常に追求し続けていくことが大事だと思います。