この記事のテーマ:
- コンパスチャートを読み、よく理解してください
- 相関とコンパスがそれを使用する理由を理解してください
Amplitudeのコンパスチャートでは、イベントを発行する新規ユーザーが、リテンションされている状態とどのような相関があるかが示されています。どのユーザーイベントがリテンションにつながるかを理解することは、持続可能なプロダクトのグロースを促進する上で重要なツールです。
開始する前に
開始する前に、コンパスチャートの構築についての記事をよくお読みください。そうでない場合、この記事は役に立たない可能性があります。
コンパスチャートの読み方
最初にコンパスチャートを起動すると、どのイベントがリテンションを促進する可能性があるかについて、特定の仮説があります。そうでない場合でも、コンパスは開発の役に立ちます。
前回の記事では、コンパスがユーザーイベントのヒートマップを生成する方法と、左側のモジュールでAny Eventが選択されている場合、デフォルトでの相関について説明しました。
これは、ターゲットコホートに変換しているユーザーのベースコホートのメンバーと最も相関のあるイベントの簡単な要約です。まだデータがない場合は、この要約が最適なスタートとなります。
注意: 相関がわからない場合は、この記事の終わりにある便利な解説をチェックしてください。
表は、上部の日付ラベルをクリックして、指定された日の昇順または降順の相関で並べ替えることができます。特定のセルをクリックすると、選択したイベント/日の組み合わせに関する詳細情報が表示されます。
この要約レポートは、鳥瞰図からデータを確認するのに便利です。たとえば、トップにあるはずのイベントがその場所になく、探している場合などです。
フォーカスするイベントを選択すると、コンパスによってより詳細な内訳のあるヒートマップが閲覧できます。
例として、新規ユーザーになってから最初の7日以内にイベント 'AddFriend' を発生させる方法と2週目のリテンションの相関、また、コンパスによって生成されるさまざまなコンポーネントがどのようなものであるかを見てみましょう。
左側には、そのイベントの相関スコアが表示され、ユーザーが発生させた頻度でソートされています。デフォルトでのレポートでは、最も高い相関を持つ頻度が表示されます。ここでは、少なくとも2回 'AddFriend' を発生させたユーザーは相関スコアが最も高いことがわかります。そのため、2週目のリテンションコホートが最も高くなる可能性があります。
注意:相関と因果関係は同じでないことに留意することが重要です。相関スコアが高いことは、2つのイベント間の何らかの因果関係を示唆しているかもしれませんが、それらの各イベントが、まだ特定されていない別のイベントと相関が高いことも意味する場合があります。
いずれかのバケツをクリックすると、当該イベントと頻度の組み合わせの詳細な内訳が表示されます。
右側には、(a)この特定の頻度でのこのイベントの相関スコアと、(b)ターゲットコホートが表示されます。一般化することは困難ですが、各ユーザーの初期日数が少ない場合、0.2という相関も考えられます。
Amplitudeは、次のような相関スコアをカテゴリ化します:
- 高度予測: 相関 >= 0.4
- ほどほどに予測しやすい:0.3 <= 相関 < 0.4
- わずかに予測可能:0.2 <= 相関 < 0.3
- 予測不可能:相関 < 0.2
結果からコホートを作成する
上の例に戻りましょう。そこでは、新規ユーザーになって最初の7日間で少なくとも2回、'AddFriend' イベントを発生させたユーザーについて説明しました。コホートを作成するをクリックすると、コホートを作成できます。その後、Amplitudeによって、リテンションと新規ユーザーリテンションが自動的に比較されます。
この比較は、単純に任意のイベント
だけではなく、あらゆるアクティブイベントに基づいていることにご注意ください。
表示 (相関表の横)をクリックすると、詳細な分割表が表示されます。これにより、ベースコホート内のユーザー数が、true positives、false positives、false negatives、true negativeの4つのカテゴリで表示されます。
同様に、表示 (詳細な統計の横) をクリックすると、コホートの詳細な統計が表示されます:
これらの統計の詳細はこちらをご覧ください。
異なるメトリックを選択する
コンパスのデフォルトでは相関スコアが表示されますが、分析のニーズに合った場合は、異なるメトリックを選択できます。相関のドロップダウンメニューから、興味のあるメトリックを選択するだけです。
利用可能なメトリックは次のとおりです。
- 相関
- エラーとの相関
- 正の予測値のみ
- 負の予測値のみ
- 感度のみ
- 特定性のみ
- しきい値以上の割合のみ
統計的意義を見る
コンパスを使用すると、相関の95%の信頼区間でオン/オフを切り替えることができます。表の右側にある青い数値テキストをクリックすると、左側のサイドバーチャートに間隔が表示されます。
相関の理解
相関は、2つの統計変数が互いにどのように関係するかの尺度です。可能な値は-1から1の範囲で、スコアが0の場合、変数間で全く統計的関係がないことを示します。スコアが1の場合は、完全な正の相関を意味します。-1のスコアは完全な負の相関です。
コンパスチャートでは、相関する2つの変数は次のとおりです:
- ユーザーは、少なくとも一定回数でイベントを発生させましたか?
- ユーザーはターゲットコホートにリテンションされましたか?
相関にはさまざまなバリエーションと定義があります。よく知られている例としては、Matthews相関、Pearson相関、phi係数、R値などがあります。この場合、コンパスはバイナリランダム変数のペアを見るため、これらの異なるメソッドはすべて同等の結果を生成します。
相関は原因ではないことを覚えておいてください。そのため、コンパス分析で思いつく仮説は、現実世界でまだテストおよび検証される必要があります。
さらにいくつかの相関の技術的定義は次のとおりです:
- XとYの相関は、XとYの共分散で、その分散の幾何学平均で割ったものです。
- XがYのアフィン関数としてモデル化され、YがXのアフィン関数としてモデル化される場合、それぞれに最小の二乗平均平方根の誤差がある場合、XとYの相関は、これらの2つの関数の予測係数の幾何学平均となります。
相関はなぜここでの使用に適したメトリックなのですか?
ユーザーの「a-ha」体験を捉える1つのメトリックを探している場合、ほとんどのユーザーが特定のしきい値を超えてリテンションを継続し、特定のしきい値以下のユーザーがリテンションされないことになる場所を求めるはずです。このような指標には、有効な正の予測値(PPV)と有効な負の予測値(NPV)を持つしきい値が存在します。
ただし、そのしきい値間でユーザーを移動させることについての難易度を考慮する必要もあります。非常に強力なPPVとNPVのしきい値を見つけた場合、そのメトリックはユーザーベースの成長については、それほど役には立たないかもしれません。少数のユーザーがしきい値を超えている場合、またはユーザーのほとんど全員がそのしきい値を超えている場合は、これを告げるサインが現れます。もちろん、常にそうとは限りませんが、より具体的な情報がない場合は、それは一般的に正しい仮説です。
そのため、コンパスでは、相関を使用して、これらのしきい値を特定します。相関は、PPV、NPV、およびしきい値以上の割合を占めます。PPVがより高くなる場合、またはNPVがより高くなる場合、あるいはしきい値以上のユーザーの割合が50%に近い場合、相関も高くなります。同様に、PPVが低く、NPVが低く、またはしきい値を超えるユーザーの割合が50にほど遠い場合、相関は低くなります。
注意:負の相関については、あまりはっきりとは説明されていませんが、コンパスを使用するときは、通常、負の相関を使用することはありません。