A/Bテストの結果は偶然？それとも必然？Web施策の成果を正しく評価する「有意水準」を徹底解説

「WebサイトやWeb広告の成果をより良くしたい！」

そんな時によく利用される手法がA/Bテスト。

日々、A/Bテストを試しては「どちらが効果があったのかな？」と効果検証されている方も多いのではないでしょうか。

しかし、A/Bテストを実施したものの、その結果をどう解釈すれば良いのか迷った経験はありませんか？

そんな時、頼りになるのが統計学の「有意水準」という考え方です。

有意水準とは、A/Bテストの結果が偶然によるものではないと判断するための基準となる値です。

本記事では、Web担当者の方に向けて、A/Bテストにおける有意水準の概念を分かりやすく解説いたします。ぜひご一読いただき、日々の業務にお役立てください。

1. なぜA/Bテストに統計学を使うといいの？

Webサイトの改善を行う際、「こっちのデザインの方がクリック率が上がりそう」「このボタンの色を変えたらコンバージョン率が改善するかも」といった仮説を立て、A/Bテストを実施することがよくあります。

しかし、A/Bテストの結果として得られた数値の差が、本当に施策の効果によるものなのか、それとも単なる偶然によるものなのかを判断するのは簡単ではありません。

例えば、サイトAとサイトBでコンバージョン率を比較した結果、サイトBの方がコンバージョン率が3%高かったとします。

しかし、この3%の差が、本当にサイトBのデザインが優れているからなのか、それともたまたまサイトBにアクセスしたユーザーの質が良かっただけなのか、判断に迷うところです。

このような場合に、統計学の知識が役立ちます。

統計学を用いることで、得られたデータから客観的な判断を下し、施策の効果を正確に評価することができます。

勘や経験に頼るのではなく、データに基づいた意思決定を行うことで、Web施策の改善をより効率的に進めることができるのです。

2. A/Bテストと仮説検定

A/Bテストでは、2つのバージョン（例えば、デザインの異なるバナーAとB）を用意し、どちらがより効果的か（クリックされやすいかなど）を検証します。

A/Bテストの結果を分析する際に活躍するのが、統計学の仮説検定という手法です。

仮説検定では、まず2つの「仮説」を立てます。

帰無仮説：2つのバナーに差はない（クリック率は同じ）
対立仮説：2つのバナーに差がある（クリック率が違う）

統計学では「差がない」状態を基準として、「差がある」ことを証明します。

続いて、A/Bテストで集めたデータを使って、どちらの仮説が正しいかを判断します。

この判断材料となるのがp値という数値です。

p値は、「実際に得られたデータが、ある仮説の下でどれくらいの確率で起こり得るか」を表します。

例えば、バナーAとBのクリック率に3%の差があり、p値が0.05（5%）だったとしましょう。

これは、「本当は差がないのに、たまたま今回のテストでは3%以上の差が出てしまった」ということが、100回A/Bテストを繰り返した場合に5回程度起こりうる、ということを意味します。

p値が小さいほど、「本当は差がないのに、たまたま差が出てしまった」という可能性が低くなり、「バナーAとBのクリック率には本当に差がある」と自信を持って言えるようになります。

p値の計算方法（カイ二乗検定）

p値を求める方法の一つに、カイ二乗検定があります。カイ二乗検定は、2つのカテゴリ変数（今回の例ではバナーAとB）の間の関係性を調べるために用いられます。

今回は、バナーAとBのクリック率の差を調べる場合のp値の計算方法を解説していきます。

1.観測データの集計

バナーの表示回数（合計）をベースに、バナーAとBのクリック数と非クリック数を以下の表にまとめます。これらは実際に観測されたデータなので観測値となります。

観測データの集計

帰無仮説と対立仮説

帰無仮説：バナーAとBのクリック率に差はない
対立仮説：バナーAとBのクリック率に差がある

2.期待値の計算

帰無仮説が正しいと仮定した場合に、各セルに期待される値（期待値）を計算します。

期待値は、以下の式で求められます。

期待値 = (行の合計 × 列の合計) / 全体の合計

例えば、バナーAのクリック数の期待値は、(2,000×65) / 3,900 = 33 となります。

同様に、他のセルの期待値も計算し、以下の表にまとめます。

期待値の計算

3.カイ二乗統計量の計算

観測値と期待値の差から、カイ二乗統計量を計算します。カイ二乗統計量は、ExcelのCHISQ.TEST関数を使用することで簡単に計算することができます。

※クリック率のような比率データに対しては、厳密には二項検定やZ検定が適切ですが、サンプルサイズが十分大きい場合は、カイ二乗検定を近似的に使用することも可能です。

今回は、p値をCHISQ.TEST関数を使って求めてみましょう。

カイ二乗統計量の計算

ExcelのCHISQ.TEST関数では、カイ二乗統計量と一緒にp値も計算されます。

その結果、今回の例では、p値は0.563となりました。

ここでは、バナーBのp値を求める必要はありません。

カイ二乗検定は、2つのバナーのクリック率に差があるかどうかを検証するための手法です。

p値は、「帰無仮説（バナーAとBのクリック率に差がない）が正しいと仮定した場合に、今回のような結果（またはそれ以上に極端な結果）が得られる確率」を表します。

つまり、p値はバナーAとBのクリック率の差全体に対するものなので、個別のバナーのp値を求めることは意味がありません。

では、p値がどこまで小さければ「帰無仮説が正しい可能性は低い」と判断して良いのでしょうか？

その判断基準となるのが、有意水準です。次の章で詳しく解説します。

3. 有意水準とは？

A/Bテストで、2つのパターンに「本当に差があるのか」を判断するための、いわば判定基準となる確率です。

なぜ有意水準が必要なの？

A/Bテストの結果は、偶然によって左右されることがあります。

たとえば、全く同じWebサイトを見せても、たまたまアクセスした人の興味やタイミングによって、クリック率などに差が出るかもしれません。

この偶然による差を無視して結果を判断すると、間違った結論を導いてしまう可能性があります。実際には効果のない広告を「効果あり！」と勘違いして、無駄な費用をかけてしまうかもしれません。

そこで、「この確率よりも小さければ、偶然じゃないと言えるよね！」という基準を事前に決めておくことで、偶然による間違いを防ぐことができます。

この基準が、有意水準です。

よく使われる有意水準

一般的に、有意水準は5%か1%に設定されることが多いです。

5%の場合：100回テストしたら、5回くらいは偶然で差が出るかも、というのを許容するレベル。
1%の場合：100回テストしたら、1回くらいしか偶然で差が出ないはず、というより厳しいレベル。

有意水準とp値の関係

A/Bテストの結果から計算されるp値と、事前に決めた有意水準を比べます。

p値が有意水準よりも小さい → 「偶然ではなさそう！」と判断（有意差あり）
p値が有意水準よりも大きい → 「偶然かもしれない…」と判断（有意差なし）

（例）先ほど例に挙げたバナーをAとBで比較するテストで、

有意水準を5%に設定
p値が0.563だった場合 → 0.05 < 0.563 なので、「有意差なし！」と判断

どの有意水準を選べばいいの？

目的に合わせて選びましょう。

間違えて「効果あり！」と判断したくない、慎重に進めたい → 1%
ある程度のミスは許容できる、できるだけ「効果あり！」を見つけたい → 5%

ただし、有意水準はあくまで目安です。結果を判断するときは、p値だけでなく、テストの参加人数なども考慮する必要があります。

4. 有意水準を正しく設定する

A/Bテストの結果を正しく解釈し、Webサイトの改善に役立てるためには、適切な有意水準を設定することが重要です。

有意水準は、A/Bテストの結果が偶然によるものではないと判断するための基準となる値ですが、その設定は慎重に行う必要があります。

目的に応じた有意水準の選び方

有意水準は、A/Bテストの目的に応じて適切に設定する必要があります。

慎重に判断したい時：Webサイトのデザインを大幅に変更するなど、重要な変更を行う場合は、1%に設定します。これにより、誤って「有意差あり」と判断してしまうリスクを減らすことができます。
ある程度の誤差を許容できる時：バナーのデザインを少し変更するなど、比較的小さな変更を行う場合は、5%に設定します。これにより、より多くの「有意差あり」の結果を得やすくなります。

サンプルサイズとの関係性

A/Bテストに参加するユーザー数（サンプルサイズ）も、有意水準の設定に影響します。

サンプルサイズが小さい場合：偶然の影響を受けやすいため、有意水準を厳しく（1%など）設定する必要があります。

サンプルサイズが大きい場合：偶然の影響を受けにくいため、有意水準を緩く（5%など）設定しても問題ありません。

業界標準や過去の事例を参考に

どの有意水準を設定すべきか迷った場合は、業界標準や過去の事例を参考にすると良いでしょう。

一般的に、WebサイトのA/Bテストでは、有意水準5%が広く採用されています。

ただし、これはあくまで一般的な目安であり、テストの目的や状況に応じて、適切な有意水準を設定することが重要です。

では、もしこの有意水準を誤って設定してしまったら、どのような問題が起こるのでしょうか？

5. 有意水準を誤るとどうなる？

A/Bテストにおいて、有意水準の設定を誤ると、2つの大きな問題が発生する可能性があります。

それは「偽陽性」と「偽陰性」です。それぞれ解説していきます。

本当は効果がないのに「効果あり！」と勘違い（偽陽性）

有意水準を緩く設定しすぎると（5%以上）、本来は効果がない施策を「効果あり！」と誤って判断してしまうことがあります。

これを「偽陽性」と呼びます。

例えるなら、健康診断で、実際には健康なのに「病気の可能性あり」と誤診されてしまうようなイメージです。

例えば、バナーAとバナーBのクリック率に本当は差がないにも関わらず、たまたまA/Bテストを実施した期間に、偶然の偏りによってクリック率に少しだけ差が生じたとします。

この時、有意水準を5%に設定していると、p値が0.05を下回り、「バナーBの方が効果あり！」と勘違いしてしまうかもしれません。

偽陽性の問題は、効果のない施策に時間やお金を無駄に使ってしまうことにつながります。

本当は効果があるのに「効果なし…」と見逃し（偽陰性）

逆に、有意水準を厳しく設定しすぎると（例えば1%）、本来は効果がある施策を「効果なし…」と見逃してしまうことがあります。

これを「偽陰性」と呼びます。

バナーAとバナーBのクリック率に本当は差があるにも関わらず、A/Bテストの参加人数が少なかったり、たまたまクリック率の差が小さくなってしまったりすると、p値が0.05を上回る可能性があります。

この時、有意水準を1%に設定していると、「バナーBにしても効果なし…」と見逃してしまうかもしれません。

偽陰性の問題は、せっかくの効果的な施策を見逃し、Webサイトの改善のチャンスを逃してしまうことにつながります。

多重比較の問題：たくさんのテストをするときは要注意

A/Bテストをたくさん繰り返すと、思わぬ落とし穴にはまることがあります（多重比較の問題）。

例えば、Webサイトの色、ボタンの形、文字の大きさなど、100個の要素をそれぞれA/Bテストで検証するとしましょう。

もし、これらの要素がクリック率に全く影響を与えないとしても、5%の有意水準でテストを繰り返すと、約5個の要素で「たまたまクリック率に差が出た」という結果になってしまう可能性があります。

例えるなら、100回コインを投げて、表が連続で5回出るようなイメージです。

1回や2回なら「偶然かな？」と思いますが、5回も続くと「何か裏があるのでは？」と疑ってしまいますよね。

A/Bテストでも同じことが起こりうるのです。

たくさんのA/Bテストを行うと、偶然によって「本当は差がないのに、差があるように見えてしまう」という誤った結果が出やすくなってしまいます。

これを防ぐためには、「有意水準を補正する」などの統計的な対策が必要になります。

多重比較の問題は、A/Bテストを正しく解釈し、Webサイトの改善に役立てる上で非常に重要な概念です。たくさんのテストを行う際には、この問題を意識し、適切な対策を講じることが大切です。

6.A/Bテストで考慮すべきポイント

ここまで、有意水準の重要性と誤った設定がもたらすリスクについて詳しく解説してきました。

しかし、実際にA/Bテストを行う際には、他にも考慮すべき要素があります。

そこで、有意水準を使いこなし、A/Bテストを成功に導くための実践的なヒントとをご紹介します。

1. 効果量を考慮する

有意水準は、統計的な有意差を判断するための基準ですが、それだけでは十分ではありません。

効果量とは、A/Bテストで得られた効果の大きさを示す指標です。

有意水準が同じでも、効果量が大きいほど、その改善は実質的に意味のあるものとなります。

イメージしやすくするために、ダイエットで2つの方法AとBを試したとします。

どちらも体重が減るという結果が出たとしても、Aは1週間で100g減、Bは1週間で1kg減だった場合、どちらを選ぶでしょうか？

おそらく多くの人がBを選ぶのではないでしょうか？

A/Bテストでも同じで、たとえ有意水準を満たしていても、効果量（実数値）が小さければ、ビジネス上のインパクトは限定的かもしれません。

効果量を考慮することで、統計的に有意なだけでなく、実質的な効果も大きい改善を見つけることができます。

2. 統計的検定力を理解する

統計的検定力とは、実際に効果がある場合に、それを検出できる確率のことです。

検定力が高いほど、偽陰性（効果を見逃す）のリスクを減らすことができます。

これは、宝くじの当選確率に似ています。

1枚しか買わなければ当たる確率は低いですが、100枚買えば当たる確率は上がりますよね。

A/Bテストでも、サンプルサイズが大きいほど、検定力が高まり、本当に効果のある改善を見つける可能性が高くなります。

3. 継続的なテストと改善を心がける

A/Bテストは一度きりのものではなく、継続的に行うことが重要です。

Webサイトの状況やユーザーの行動は常に変化するため、一度効果があった改善も、時間が経つと効果が薄れる可能性があります。

定期的にA/Bテストを実施し、改善を繰り返すことで、Webサイトのパフォーマンスを最大化することができます。

4. 専門家の意見を参考にする

A/Bテストに関する専門知識や経験に不安を感じている場合は、専門家の意見を参考にすることも有効です。

弊社（株式会社アクシス）では、WebサイトやWeb広告のA/Bテストなど、データに基づいた改善を支援しています。お困りの方はお気軽にご相談ください。

7.ABテストに関するよくある質問

A/Bテストを始めるにあたって、疑問や不安を感じる方もいるかもしれません。

ここでは、よくある質問とその回答をご紹介します。

Q1：A/Bテストはどのくらいの期間実施すれば良いですか？

A：テスト期間は、Webサイトのトラフィック量や目標とする効果量によって異なります。

一般的には、統計的に有意な結果を得るために、少なくとも1週間から2週間は必要と言われています。

ただし、トラフィック量が少ない場合は、より長い期間が必要になることもあります。

Q2：複数の要素を同時に変更してテストしても良いですか？

A：複数の要素を同時に変更すると、どの要素が結果に影響を与えたのかを特定することが難しくなります。

例えば、バナーのデザインとキャッチコピーを同時に変更して、クリック率が向上したとします。

しかし、この場合、デザインの変更がクリック率向上に貢献したのか、キャッチコピーの変更が貢献したのか、あるいは両方の変更が複合的に作用したのか、判断がつきません。

そのため、A/Bテストでは、1つの要素のみを変更してテストを行うことを基本とします。

Q3：効果が見られなかった場合はどうすれば良いですか？

A：効果が見られなかった場合でも、A/Bテストから得られたデータは貴重な情報です。

なぜ効果が出なかったのかを分析し、仮説を立て直して再度テストを実施することで、改善につなげることができます。

Q4：A/Bテストの結果は、常に正しいですか？

A：A/Bテストは統計的な手法に基づいていますが、あくまで確率的な判断であることを理解しておく必要があります。

サンプルサイズが小さかったり、テスト期間が短かったりすると、誤った結論を導き出す可能性もあります。結果を過信せず、常に批判的な視点を持つことが大切です。

Q5：A/Bテストで注意すべきことはありますか？

A： A/Bテストを実施する際には、倫理的な問題やプライバシー保護に配慮する必要があります。また、テスト結果を過信せず、常に批判的な視点を持つことも大切です。

8.まとめ

この記事では、A/Bテストにおける有意水準の重要性、適切な設定方法、そしてよくある疑問について解説しました。

有意水準を正しく理解し、効果量や検定力といった概念を踏まえてテスト設計を行うことで、得られた結果の信頼性を高めることができます。

A/Bテストは、Webサイトの改善に非常に有効な手法です。

しかし、その効果を最大限に引き出すためには、統計的な知識を身につけるだけでなく、継続的なテストと改善を心がけることが重要です。

この記事で紹介した内容を参考に、A/Bテストを効果的に活用し、Webサイトの改善を成功に導きましょう。

この記事で紹介した用語一覧

有意水準：A/Bテストの結果が偶然によるものかどうかを判断するための基準となる確率。一般的に、1%または5%に設定される。
効果量：A/Bテストで得られた効果の大きさを示す指標。効果量が大きいほど、その改善は実質的に意味のあるものとなる。
統計的検定力：実際に効果がある場合に、それを検出できる確率。検定力が高いほど、偽陰性（効果を見逃す）のリスクを減らすことができる。
偽陽性：実際には効果がないのに、効果があると誤って判断すること。
偽陰性：実際には効果があるのに、効果がないと誤って判断すること。
サンプルサイズ：A/Bテストに参加するユーザー数。サンプルサイズが大きいほど、信頼性の高い結果を得ることができる。

Marketing Quest