컴퍼스를 통한 변곡 메트릭 확인하기

  • 업데이트 시간

컴퍼스는 잔존율이나 전환을 예측할 수 있는 행동을 식별하는 데 도움이 되는 강력한 기능입니다. 컴퍼스는 변곡 메트릭을 식별합니다. 변곡 메트릭은 사용자가 제품에서 중요한 임계점에 도달하는 순간을 포착하여 사용자 성장을 증대하는 데 큰 역할을 합니다.

예를 들어, Facebook은 첫 10일에 7명의 친구를 추가하는 것이 장기 잔존율에 영향을 미치는 가장 강한 신호라는 것을 조기에 파악했습니다. Netflix는 최근 TV 프로그램당 정확히 몇 개의 에피소드가 있어야 시청자들을 사로잡을 수 있는지에 대한 분석 내용을 발표했습니다.

진행하기 전에 컴퍼스에 대한 지원 센터 문서를 먼저 읽어 보세요. 이 문서의 나머지 부분에서는 여러분이 분석의 작동 방식을 일반적인 수준으로 이해하고 있다고 가정합니다.1

쉽게 읽을 수 있도록 신규 사용자/잔존율 사용 사례를 소개하지만, 신규 사용자는 임의의 기본 코호트로 대체될 수 있으며 잔존 사용자는 임의의 타겟 코호트로 대체될 수 있습니다.

변곡 메트릭을 찾으려면 먼저 타겟 코호트를 정해야 합니다. 변곡 메트릭은 신규 사용자가 잔존 사용자가 되도록 유도하는 프로세스에 중점을 두는 경우가 많습니다. 이 문서의 예시에서는 기본 코호트가 신규 사용자이고 타겟 코호트가 잔존 사용자입니다.2

기본 코호트는 여러분이 분석하는 초기 사용자 세트입니다(예: 신규 사용자 또는 로그인한 사용자). 타겟 코호트는 타겟 행동을 성공적으로 완료한 사용자 세트입니다(예: 잔존, 전환).

이는 일반적인 사용 사례이며, 컴퍼스 차트의 기본 설정입니다. 하지만 차트를 쉽게 편집하여 특정 분석 요구 사항을 반영하도록 할 수 있습니다.

변곡 메트릭을 찾을 때는 이 메트릭이 절대적이지 않다는 점을 명심하세요. 사용자가 정확히 해당 시점에 전환한다는 의미는 아닙니다. 대신 이 메트릭은 조직(예: 제품 및 마케팅 팀)이 사용자에게 유도하고자 하는 행동 유형을 제시합니다. 

컴퍼스 시작하기

컴퍼스를 시작하는 최적의 방법은 어떤 이벤트로 잔존율을 잘 예측할 수 있을지 자문해 보는 것입니다. 분석할 이벤트를 선택하고 나면, 사용자 행동에 관해 흥미로운 결과를 얻을 수 있는 상관관계를 생각해 보아야 합니다. 하지만 그 전에 먼저 컴퍼스 메트릭을 해석하는 방법을 알아보겠습니다.

임계값 초과 비율

임계값 초과 비율을 통해 얼마나 많은 신규 사용자가 첫 N일 동안 실제로 이벤트를 트리거했는지 확인할 수 있습니다. 이 메트릭이 중요한 이유는 잔존율과의 상관관계를 이해하기 위해 임계값을 충족하는 사용자 샘플이 충분히 많아야 하기 때문입니다.

이 비율을 조정하는 방법은 기간에서 성과 일수를 늘리는 것입니다(Amplitude는 1-7일을 허용함). 성과 일수가 많을수록 사용자가 임계값에 도달하는 데 더 많은 시간이 걸리므로 비율이 높아집니다. 또한 이벤트 속성을 조사하는 경우 전체 이벤트를 참조합니다. 임계값을 충분히 상회하는 비율을 얻을 수 있습니다.

임계값을 초과하는 완벽한 비율이라는 것은 없습니다. 비율이 너무 낮아도 신규 사용자가 해당 이벤트를 여러 번 수행하도록 할 수 없고, 너무 높으면 개선의 여지가 없다는 것을 의미합니다. 3

임계값을 초과하는 낮은 비율이 높은 상관관계로 이어질 수 있는 극단적인 경우도 있습니다. 트래픽이 높지만 모든 신규 사용자에게 로그인을 강제하는 웹 애플리케이션이 이에 대한 예시가 될 수 있습니다.

이 메트릭이 중요한 이유는 변곡 메트릭을 찾을 때의 균형을 고려하기 때문입니다. 다시 Facebook의 예시로 돌아가 보면, 신규 사용자가 1명의 친구를 추가하도록 하는 것은 변곡 메트릭에 있어 딱히 좋은 선택이 아닙니다. 거의 모든 사용자가 그 정도는 하기 때문입니다. 하지만 신규 사용자에게 100명의 친구를 추가하도록 하는 것은 잔존율과 긴밀한 관계가 있지만 실현 가능하지 않습니다. 실제로 그러한 수준에 이르는 사용자의 비율은 매우 낮기 때문입니다.

TPR(True Positive Ratio): PPV 및 민감도

임계값을 초과하는 유의미한 비율을 얻었다면, 다음으로는 이벤트 빈도와 잔존율 사이의 상관관계를 확인해야 합니다. PPV(양성예측도)민감도를 참조하여 이를 확인할 수 있습니다.

PPV는 이벤트 빈도에 도달한 모든 사용자(True Positive + False Positive) 대비 이벤트 빈도에 도달했으며 잔존한 사용자(True Positive)의 비율을 참조합니다. 민감도는 잔존한 모든 사용자(True Positive + False Negative) 대비 잔존했으며 이벤트 빈도에 도달한 사용자(True Positive)의 비율을 참조합니다. 둘 다 높은 편이 좋습니다.

여기에서 True Positive, False Positive 및 분할 매트릭스의 다른 값을 자세히 알아볼 수 있습니다.

이벤트 빈도 잔존함 잔존하지 않음
= n회 True Positive False Positive
< n회 False Negative True Negative

 

예시 1: 높은 PPV, 낮은 민감도

예를 들어 PPV가 높지만 민감도는 낮다고 생각해 보세요. 이 이벤트를 통해 잔존율을 예측할 수는 있지만, 많은 신규 사용자가 임계값에 도달하지는 못합니다. 따라서 더 많은 사용자가 이벤트를 트리거하도록 유도할 수 있는지 확인하기 위해 실험에 유용하게 활용할 수 있습니다. 또한 아직 살펴보지 않은 또 다른 변곡 메트릭이 있을 수 있습니다. 이 빈도에 도달하지 않은 사람들도 여전히 잔존한 상태이기 때문에 다른 것이 잔존율과 연관되어 있을 수 있습니다.

이벤트 빈도 잔존함 잔존하지 않음
= 5회

10

1
< 5회 100 10

 

예시 2: 낮은 PPV, 높은 민감도

이 예시의 경우 이벤트 빈도에서는 많은 잔존 사용자가 포착되지만 제품에 대한 전체 잔존율은 낮게 나타날 수 있습니다. 이는 변곡 메트릭에 유용하다고 볼 수 없습니다. 제품의 잔존율이 낮거나, 이벤트 빈도를 충족하는 높은 비율의 사용자가 잔존하지 않고 있기 때문입니다.

이벤트 빈도 잔존함 잔존하지 않음
= 5회 10 100
< 5회 1 10

 

TNR(True Negative Ratio): NPV 및 특이성

변곡점은 긍정적인 예측 변수여야 하지만, 사용자가 임계값에 도달하지 못한 경우에는 잔존에 대한 부정적인 예측 변수, 즉 이탈이 되도록 해야 합니다. 이는 NPV(음성예측도)특이성을 통해 포착됩니다.

NPV는 이벤트 빈도에 도달하지 않은 모든 사용자(True Negative + False Negative) 대비 이벤트 빈도에 도달하지도 않았고 잔존하지도 않은 사용자(True Negative)의 비율을 구합니다.

특이성은 잔존하지 않은 모든 사용자(True Negative + False Positive) 대비 이벤트 빈도에 도달하지도 않았고 잔존하지도 않은 사용자(True Negative)의 비율을 구합니다. 위의 예시처럼 이 두 값은 최대한 높은 편이 좋습니다.

팁: 하지만, 예외적으로 높은 NPV와 높은 특이성이 변곡 메트릭으로 사용하기에 적절하지 않은 강한 상관관계로 이어지는 경우도 있습니다. 이는 매우 높은 비율의 사용자가 True Negative 버킷에 속하며 임계값을 초과하는 비율이 매우 낮을 때 발생합니다. 예를 들어, 매우 적은 비율의 사람들이 로그인하는 웹사이트가 있습니다. 하지만 이 경우 다른 모든 이벤트가 발생하지 못하게 됩니다. 이러한 경우 대부분의 이벤트는 잔존율과 높은 상관관계를 갖게 됩니다. 대부분의 사용자가 이벤트를 트리거하지 않기 때문입니다. 이를 막기 위해 기본 코호트가 실제 사용자를 더 잘 반영하도록 변경해야 합니다(예: 로그인하는 사람).

예시 3: 높은 NPV, 낮은 특이성

이 예시에서는 둘 중 하나가 일어날 가능성이 높습니다. PPV가 낮거나(예시 2), 임계값을 초과하는 비율이 너무 높아서 해당 행동을 유도할 수 있는 개선의 여지를 막는 것입니다. 둘 다 훌륭한 변곡 메트릭은 아닙니다.

이벤트 빈도 잔존함 잔존하지 않음
= 5회 1000 100
< 5회 1 10

 

예시 4: 낮은 NPV, 높은 특이성

이 경우 민감도가 낮거나(예시 1), 잔존율이 너무 높아서 전환할 사용자가 많지 않아 행복한 고민이 생기는 상황이라고 할 수 있습니다.

이벤트 빈도 잔존함 잔존하지 않음
= 5회 1000 1
< 5회 100 10

 

결론

여러분도 추측했을 수 있지만, Amplitude는 기본적으로 컴퍼스 분석을 실행하여 분할 매트릭스의 왼쪽 상단(True Positive) 및 오른쪽 하단(True Negative) 사분면을 최대화하는 이벤트 빈도를 알아내고자 합니다(통계에 익숙한 경우 1종 및 2종 오류를 최소화).  

이러한 변곡 메트릭은 이를 위해 앞에서 설명한 5가지 세부 통계의 균형을 맞추는 경향이 있으며, 상관관계는 제품 유형과 이벤트의 성과 일수(1-7일)에 따라 0.2-0.4 범위가 가장 좋습니다.5

결론을 도출하기에 샘플 크기가 충분한지 확인하는 것도 중요합니다. 전반적인 사용자 볼륨에 따라 다르기 때문에 정답은 없지만, 상관관계 옆의 파란색 +- 숫자(95% 신뢰도 구간)를 클릭하면 샘플 크기의 영향을 파악할 수 있습니다. 샘플 크기는 날짜 범위를 변경하여 늘릴 수 있습니다. 최대 90일의 데이터를 사용할 수 있습니다.

컴퍼스는 데이터의 상관관계를 보여 준다는 점을 이해하세요. 이제 제품 및/또는 라이프사이클 마케팅을 변경하여 가설을 테스트할 수 있습니다. 인과 관계를 증명하는 유일한 방법은 A/B 또는 분할 테스트를 실행하여 변경 사항을 따로 떼어놓고 보는 것입니다. Amplitude에서 어떻게 A/B 테스트 결과를 분석하는지 자세히 알아보세요.