統計的に新手法が既存手法に比べて優れているかどうかを確認するのにはt検定を使う。 t検定はExcelで簡単に実行することができるためその方法を紹介する。
ABテストをやるようなエンジニアの人はこれを覚えておくと、信頼できる形で結果を上司に報告することができるため便利。
この記事はExcelでt検定をやる方法を説明するのがメインのため、その他はかなり雑に説明している。そのため、t検定自体の説明は例えば下記を参考にして欲しい。
t検定 とはデータ群AとBの平均に差異があるかどうかを調べるのに使用できる。
t検定 ではデータ群が正規分布という統計的性質を持つことが要求されるので、普通にデータを取得すればたいていはこれは満たされると思うが、気をつけて欲しい。片側検定と両側検定という2種類あるが、新手法が旧手法に対して優れているかどうかを見る場合は片側検定だけで大丈夫。
Excelでt検定をするためには、「データ分析」というメニューを表示させる必要がある。デフォルトでは表示されない設定になっているため、以下の方法で表示させる。
4つ目の画像の赤枠を見ると分かるように、これで「データ分析」のメニューを出すことができる。
以下の画像の左端を見ると分かるように、母集団AとBについて同数のデータを集める。データ少なすぎると実行できるので注意。
このデータは、あるシステムの旧手法Aと新手法Bのクリック率(CTR)である。劇的ではないが、新手法BのCTRの方が高そうに見える。
統計的にもそう言えるのか t検定 で見てみる。
以下の手順で t検定 を実行してみる。
αのところは0.1か0.05か0.01を入れるのが一般的だ。
研究結果などの厳密性が必要な部分については0.01などを採用するが、仕事で使う分には0.1でもいいと思う。
たくさん結果が出ているが、見るべきところは「P(T<=t) 片側」である。この値が先ほど指定したαの値以下になっているかどうかを見る。もし、αの値以下になっていれば新手法の方が効果が高いといえる。