EunGyeongKim

[데이터분석] 지표 본문

ML & DL/데이터분석

[데이터분석] 지표

EunGyeongKim 2023. 3. 27. 17:48

지표

  • 지표의 속성
    • 스톡 (stock)
      • 특정 시점의 스냅숏(snapshor)에 해당하는 지표
      • 시작과 끝이라는 개념이 없고 특정한 찰나에 관찰할 수 있는 누적된 값
      • 예시 ) 누적 가입자 수, 누적 거래액, 레벨 1인 사용자 수 등
    • 플로 (flow)
      • 시작과 끝에 대한 시간 범위가 존재
      • 스톡 지표에 비해 더 많은 정보를 가지고 있음
      • 지표의 변화 방향이나 변화 추이, 속도에 대해 더 많은 세부적인 정보를 줄 수 있음
      • 스톡에 해당하는 많은 지표들은 허무지표(vanity metric)에 가까움
      • 일정한 시간동안의 변화량을 나타내는 지표
      • 예시 ) 1월 1일의 가입자 수, 2월 1일 하루 매출, 일 평균 주고받은 메세지 수 등
    • 핵심 지표를 선정하거나 그로스 실험의 성과를 측정할 때 목표로 하는 지표가 스톡인지 플로인지 정확히 구분해서 활용해야 함.
  • 지표 명확하게 정의하기
    • 이 단계에서 필요한것은 원칙을 세우는 일
    (예시)
    • MAU 정의하기
      • 최근 30일간 서비스에 로그인한 사용자라고 정의할 때
        • 회원가입, 로그인을 하지 않고 둘러본 사용자는 집계 X
        • 만약 로그인과 상관없이 방문한 사용자 전체를 MAU로 집계할 경우
          • 웹, 앱 양쪽으로 방문한 사람은 1명으로 집계해야 하는지, 아님 2명으로 집계해야 하는지
          • 한 사람이 여러 브라우저를 통해 접속하는 경우
          • 오전에는 모바일로 접속하고 오후에 pc 웹으로 접속한 경우
    • 마이리얼트립에서 크로스 셀(cross-sell, 교차구매) 비율을 높이는것
      • 고려해야 할 경우의 수
        • 런던 항공권을 산 사람이 호텔을 사면 크로스 셀?
        • 런던 항공권을 산 사람이 파리 호텔을 사면 크로스셀?
        • 런던 항공권을 산 사람이 파리 호텔과 런던-파리 유로스타 티켓을 사면 크로스셀?
        • 1월에 런던 항공권을 산 사람일 7월에 파리 투어를 사면 크로스셀?
        • 10월에 출발하는 런던 항공권을 1월에 산 사람이 10월에 런던에서 하는 투어를 9월에 사면 크로스셀?
        • 런던 항공권을 샀다가 취소한 사람이 런던 호텔을 사면 크로스셀?
        • 런던 야경투어를 산 사람이 런던 박물관 투어를 사면 크로스셀?
        • …. 등등
    • 지표를 기반으로 성장 실험을 할 때는 해당 지표를 어떻게 정의하고 측정할 것 인가를 반드시 짚고 넘어가야 함.
    • → 모호한 지표는 모호한 액션을 이끌수 없기 때문
  • 허무지표(= 허상지표, vanity metric)에 빠지지 않기
    • 행동을 이끌어 내지 못하는 의미없는 지표
    • 단순히 시간이 흐르면서 자연스럽게 높아지는 지표
    • 실제로 중요한 수치와는 크게 상관이 없는 지표
    • 단순히 많은 일을 했다는 것을 드러내기 위한 지표
      • 누적 다운로드
      • 누적 앱 설치
      • → 이게 목적이라면 정말 저렴한 비용으로 CPI(cost per install )에 초점을 맞춘 마케팅을 하면 됨
      • 누적 방문자
      • 페이지 뷰
      • ‘주간 업무 보고’ 가 이에 속함
        • 시간이 지나고 서비스사 성장하거나 시장 환경이 달라짐에 따라 중요한 지표는 달라지기 때문
    • 예시 )
  • 전체 관점에서의 최적화
    • 지표를 개선하기 위한 행동이 부분 최적화가 아닌 천제 관점에서의 최적화에 초점을 맞춰야 함
    예시)
    • 특정 페이지의 CTR(click through rate)에만 집중
    • → 전체 퍼널에서의 전환율이 떨어짐
    • 퍼포먼스 광고의 CPC(cost per click)에만 집중
    • → 전체 광고의 성과가 낮아짐
    • 뉴스에 배너광고와, 페이스북 광고의 클릭은 같지 않음
      • 판단 오류를 방지하기 위해서 광고가 노출되는 지면의 형태, 해당 지면을 많이 방문하는 사용지의 특성을 알고 있어야 함
    • 마케팅의 성과를 전체 관점에서 측정하고 최적화 하려면 한두개의 지표 움직임만으로 판단하지 말아야 함
      • 여러가지 시나리오와 지표를 바탕으로 종합적으로 판단하고 의사결정 해야 함
    • 간단한 넛지(nudge)를 이용하는 활성화 전략이 긍정적으로 평가되는지 고민해 봐야 함
      • 페이스북 손흔들기 기능
      • 텔레그램 알림

 


심슨 패러독스(simpson’s paradox)

  • 쪼개진 데이터에서 성립하는 관계가 합쳐진 데이터에서는 반대로 나타나는 현상
  • 예시 )
    • 버클리대학의 여/남 입시결과
      • 여자는 35%, 남자는 44% 합격통보를 받음
      • 학과별로 쪼개서 확인해 본 결과, 여성이 경쟁률이 높고 합격률이 낮은 학과에 많이 지원했기 때문
    • 마이리얼트립의 크로스셀 비율 하락
      • 하락하고 있는 전체 데이터와 달리, 국가별로 보았을 때 크로스 셀 비율은 대부분의 나라에서 꾸준히 증가
      • 이유 : 크로스셀 비율이 높았던 일본 여행이 전체에서 차지하는 비중이 줄어들면서 전체 국가를 기준으로 한 크로스셀 비율이 전월대비 하락

대푯값을 사용할 때 주의해야 할 점

  • 가장 일반적으로 활용되는 대푯값은 평균
    • 데이터가 전규분포에 가까우면 대푯값으로 평균을 써도 괜찮음
    • 하지만, 정규분포가 아니거나 아웃라이어가 있는 경우 평균은 그 데이터를 대표하지 못하는 경우가 많음
  • 통계학에서는 중앙값(median), 최빈값(mode)을 데이터 특성에 맞게 사용
  • 데이터 분포를 확인하고 대표값을 설정해야 함
    • 산점도나 상자수염(box-and whisker plot)을 그려보기
    • 데이터 시각화를 통해 분석해야 함
      • 분석을 막 시작하는 시점에 해당 데이터셋이 어떻게 구성돼 있는지 확인하는 탐색적 분석 과정에서 훨씬 더 유용하에 활용됨
      • 탐색적 데이터 분석(EDA, Exploratory Data analysis) : 데이터의 구조와 형태, 분포 등 다각적으로 확인해야 함

 

생존자 편향(survivorship bias) 피하기

 

  • 제 2차 세계대전 당시 전투기 장갑 보강
    • 전투기들의 생존율을 높이기 위해 귀환한 전투기에 적탄을 맞은 위치에 장갑을 보완하는 프로젝트
    • 통계학자 아브라함 발드는 피탄 흔적이 많은 동체와 날개가 아니라 상대적으로 적은 엔진과 조종석을 집중적으로 보강해야 한다는 의견을 주장

 

 

AARRR 주요 지표

  • acquistion
    • install, singup, CAC, attribution, CTR, Source, Medium, campaign, ROAS, bounce rate
  • activation
    • funnel Conversion
    • CTR
    • PV, Screenview
    • Query Count
    • search keyword rank
  • retention
    • Classic retention
    • range retention
    • rolling retention
    • DAU / MAU
    • frequency
  • revenue
    • Sales
    • transaction
    • purchase rate
    • ARPU
    • ARPPU
    • ARPDAU
    • ASP
    • LTV
  • referral
    • Viral Coefficient
    • invitation
    • share
    • post
    • adoption rate

지표를 잘 활용하기 위해 우선적으로 고려해야 할 점

  • 지금 가장 중요한 지표가 무엇인가?
  • 현실적으로 앞에 소개한 모든 지표를 사용하는것은 리소스 낭비

 

OMTM(one Metric that matters)

  • 지금 가장 중요한 지표
  • = NSM, north start metric
    • 북극성 지표
  • OMTM의 가치는 구성원들이 바라보는 방향성을 일치시키고 자원을 집중하는데에서 나옴
  • OMTM 정의
    • 고려해야 할 점
      • 어떤 비즈니스 모델을 가진 서비스를 만들고 있는가?
      • 서비스 라이프 사이클을 고려할 때 우리는 어떤 단계에 있는가?
      • 지금 가장 신경쓰이는 단 하나의 문제를 찾아보자. 어떤 문제인가?
      • 우리가 원하는 행동을 하는 사용자와 그렇지 않은 사용자는 무엇이 가장 다른가?
      • 4번째를 구분할 수 있는 이벤트나 속성은 무엇인가? 그 추세가 달라지는 지점은 어디인가?
  •  
  • OMTM & KPI & OKR
    • OMTM vs KPI
      • OMTM
        • 성장을 목표로 하는 지표
        • 모두가 공유하는 하나의 목표
        • 서비스가 진짜 잘 되고 있는지를 알려주는 중요한 지표
      • KPI = key perfromance index
        • 일반적으로 평가를 위해 활용하는 지표
        • 달성 여부 자체가 굉장히 중요함
        • 그 자체가 목표에 가까운 지표
        • 팀이나 부서별로 서로 다르게 설정됨
        • 한번 정해지면 평가할때까지 거의 바뀌지 않음
        • 잘못 설정되었다는 사실을 알더라도 타 부서와의 공정성 문제 등을 고려해서 수정하지 못하는 경우가 많음
    • OMTM vs OKR
      • OKR = objectives & key results
        • 구글이 도입한 목표관리 체계
        • 3~5개의 목표(objectives), 목표당 3~5개정도의 핵심결과( key results)로 구성됨
          • 목표 (objectives)
            • 매우 도전적인 목표
            • 주로 정성적인 언어로 표현되며, 구성원들의 가슴을 뛰게 할 수 있는 크고 담대한 목표를 설정해야 함
          • 핵심 결과(key results)
            • 목표를 달성하기 위한 구체적인 결과 지표
            • 객관적으로 측정하고 모니터링 할 수 있는 지표
            • 하나의 목표에 연계된 핵심 결과는 3개이하를 권장함
        • 도전적인 목표, 전사적인 정렬(alignment), 투명한 공유를 강조
        • 목표는 굉장히 도전적이고 어려운 수준으로 정해야 함
        • 전사가 나아가야 할 방향과 목표가 정해지면 그 방향성과 일치하도록 각 사업부서의 OKR이나 개인의 OKR을 정하도록 하는 식

 

Reference

양승화, 그로스해킹, 위키북스(2021.1.14)

 

'ML & DL > 데이터분석' 카테고리의 다른 글

[데이터분석] A/B 테스트  (0) 2023.03.28
[데이터분석] AARRR  (0) 2023.03.27
[데이터분석] 그로스해킹  (0) 2023.03.27
Comments