主要な実験用語の用語集
用語 |
定義 |
問題ステート |
解決しようとしている内部ビジネスまたはユーザーの問題の説明。 |
仮説 |
問題ステートメントと理由を解決または軽減するためにどのメソッドを使えばよういかを想定すること。 |
オーディエンス |
実験のターゲットとなるユーザーのグループ。このオーディエンスは通常、「control」グループと「variant」グループに均等に分割されます。 |
主要成功指標 |
実験を行うことによって動かしたい主な指標。理想的には、顧客とビジネスの両方の成功を促進する必要があります |
二次成功指標 |
実験で動したい、または動くことを期待する追加の指標 |
ターゲットリフト / 最小検出可能効果(MDE) |
経験の結果として主要成功指標で推進が期待される割合の変化 |
カウンター指標 |
安定させたい指標で、成功指標を高めるために犠牲とならないもの。たとえば、ユーザーをビジネス製品の無料トライアルに誘導する場合、消費者製品のトライアルはカウンター指標になる可能性があります。ビジネストライアルが進行すると、消費者のトライアルが低下する可能性があります。実際の効果があることを確認してください。 |
ベースラインコンバージョン率 |
実験の前の主要成功指標の現在の割合。 |
サンプルサイズ |
統計的意義を健全に検出するために、各実験バリアントで必要なユーザー/トラフィックの数。 |
ランタイム |
バリアントごとに必要なサンプルサイズとトラフィックレベルに基づいて、実験を行うのにかかる時間。 |
信頼性/意義レベル |
誤検出の可能性。たとえば、95%の信頼性レベル(意義レベル5%となっていることもある)の場合、実際に変化がないのに成功指標に変化を検出することがあります。 |
信頼性インターバル |
関心のパラメーターを含む、一般的な値の範囲。私たちのケースでは、推定しようとしている真のパラメーターは、治療とコントロール/ベースラインの方法の違いです。 例: 信頼性レベルが95に設定され、同じ実験を実行した場合、各ランの信頼性インターバルには少なくとも95倍の真のパラメーターが含まれます。 |
p値 |
治療とコントロールに違いがないと仮定してデータを観察する可能性。 |
統計的なパワー |
検出する変化があるときに、成功指標に変化を検出する可能性。 |
ペイロード |
バリアントに添付された変数。これはコード変更せずにリモートでフラグや実験を変更するために使用することができます。 |
連続テスト |
サンプルサイズが事前に固定されていない統計的分析。次のことが可能になります: A/Bテストの実施、結果の閲覧、誤検出の増加しない結論付け。 |
割り当て |
このバリアントを得たいターゲットユーザーの%または# |
タイプ1エラー |
治療とコントロールに統計的に重大な違いがあるのに、違いがないと誤って分類されること。 |
タイプ2エラー |
治療とコントロールに違いがないのに、違いがあると誤って分類されること。 |
登録イベント |
ユーザーがフラグに登録されていることを知らせるイベント。これにはイベントプロパティのユーザーバリアント割り当てが含まれます。 |
割り当てイベント |
登録イベントの別の名前。 |
エクスポージャーイベント |
ユーザーが実験に基づいて実際に変化を見たことがあることを示すイベント。 |