Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 논문editor
- 평가지표
- Scienceplots
- n_neighbors
- Alignments
- SMAPE
- Overleaf
- PAPER
- 에러해결
- MAPE
- RMES
- TypeError
- iNT
- 논문
- mes
- 프로그래머스
- 스택
- 논문작성
- Tire
- Mae
- 파이썬을파이썬답게
- 코테
- Pycaret
- python 갯수세기
- 카카오
- KAKAO
- n_sample
- knn
- Python
- mMAPE
Archives
- Today
- Total
EunGyeongKim
[데이터분석] 지표 본문
지표
- 지표의 속성
- 스톡 (stock)
- 특정 시점의 스냅숏(snapshor)에 해당하는 지표
- 시작과 끝이라는 개념이 없고 특정한 찰나에 관찰할 수 있는 누적된 값
- 예시 ) 누적 가입자 수, 누적 거래액, 레벨 1인 사용자 수 등
- 플로 (flow)
- 시작과 끝에 대한 시간 범위가 존재
- 스톡 지표에 비해 더 많은 정보를 가지고 있음
- 지표의 변화 방향이나 변화 추이, 속도에 대해 더 많은 세부적인 정보를 줄 수 있음
- 스톡에 해당하는 많은 지표들은 허무지표(vanity metric)에 가까움
- 일정한 시간동안의 변화량을 나타내는 지표
- 예시 ) 1월 1일의 가입자 수, 2월 1일 하루 매출, 일 평균 주고받은 메세지 수 등
- 핵심 지표를 선정하거나 그로스 실험의 성과를 측정할 때 목표로 하는 지표가 스톡인지 플로인지 정확히 구분해서 활용해야 함.
- 스톡 (stock)
- 지표 명확하게 정의하기
- 이 단계에서 필요한것은 원칙을 세우는 일
- MAU 정의하기
- 최근 30일간 서비스에 로그인한 사용자라고 정의할 때
- 회원가입, 로그인을 하지 않고 둘러본 사용자는 집계 X
- 만약 로그인과 상관없이 방문한 사용자 전체를 MAU로 집계할 경우
- 웹, 앱 양쪽으로 방문한 사람은 1명으로 집계해야 하는지, 아님 2명으로 집계해야 하는지
- 한 사람이 여러 브라우저를 통해 접속하는 경우
- 오전에는 모바일로 접속하고 오후에 pc 웹으로 접속한 경우
- 최근 30일간 서비스에 로그인한 사용자라고 정의할 때
- 마이리얼트립에서 크로스 셀(cross-sell, 교차구매) 비율을 높이는것
- 고려해야 할 경우의 수
- 런던 항공권을 산 사람이 호텔을 사면 크로스 셀?
- 런던 항공권을 산 사람이 파리 호텔을 사면 크로스셀?
- 런던 항공권을 산 사람이 파리 호텔과 런던-파리 유로스타 티켓을 사면 크로스셀?
- 1월에 런던 항공권을 산 사람일 7월에 파리 투어를 사면 크로스셀?
- 10월에 출발하는 런던 항공권을 1월에 산 사람이 10월에 런던에서 하는 투어를 9월에 사면 크로스셀?
- 런던 항공권을 샀다가 취소한 사람이 런던 호텔을 사면 크로스셀?
- 런던 야경투어를 산 사람이 런던 박물관 투어를 사면 크로스셀?
- …. 등등
- 고려해야 할 경우의 수
- 지표를 기반으로 성장 실험을 할 때는 해당 지표를 어떻게 정의하고 측정할 것 인가를 반드시 짚고 넘어가야 함.
- → 모호한 지표는 모호한 액션을 이끌수 없기 때문
- 허무지표(= 허상지표, vanity metric)에 빠지지 않기
- 행동을 이끌어 내지 못하는 의미없는 지표
- 단순히 시간이 흐르면서 자연스럽게 높아지는 지표
- 실제로 중요한 수치와는 크게 상관이 없는 지표
- 단순히 많은 일을 했다는 것을 드러내기 위한 지표
- 누적 다운로드
- 누적 앱 설치
- → 이게 목적이라면 정말 저렴한 비용으로 CPI(cost per install )에 초점을 맞춘 마케팅을 하면 됨
- 누적 방문자
- 페이지 뷰
- ‘주간 업무 보고’ 가 이에 속함
- 시간이 지나고 서비스사 성장하거나 시장 환경이 달라짐에 따라 중요한 지표는 달라지기 때문
- 예시 )
- 전체 관점에서의 최적화
- 지표를 개선하기 위한 행동이 부분 최적화가 아닌 천제 관점에서의 최적화에 초점을 맞춰야 함
- 특정 페이지의 CTR(click through rate)에만 집중
- → 전체 퍼널에서의 전환율이 떨어짐
- 퍼포먼스 광고의 CPC(cost per click)에만 집중
- → 전체 광고의 성과가 낮아짐
- 뉴스에 배너광고와, 페이스북 광고의 클릭은 같지 않음
- 판단 오류를 방지하기 위해서 광고가 노출되는 지면의 형태, 해당 지면을 많이 방문하는 사용지의 특성을 알고 있어야 함
- 마케팅의 성과를 전체 관점에서 측정하고 최적화 하려면 한두개의 지표 움직임만으로 판단하지 말아야 함
- 여러가지 시나리오와 지표를 바탕으로 종합적으로 판단하고 의사결정 해야 함
- 간단한 넛지(nudge)를 이용하는 활성화 전략이 긍정적으로 평가되는지 고민해 봐야 함
- 페이스북 손흔들기 기능
- 텔레그램 알림
심슨 패러독스(simpson’s paradox)
- 쪼개진 데이터에서 성립하는 관계가 합쳐진 데이터에서는 반대로 나타나는 현상
- 예시 )
- 버클리대학의 여/남 입시결과
- 여자는 35%, 남자는 44% 합격통보를 받음
- 학과별로 쪼개서 확인해 본 결과, 여성이 경쟁률이 높고 합격률이 낮은 학과에 많이 지원했기 때문
- 마이리얼트립의 크로스셀 비율 하락
- 하락하고 있는 전체 데이터와 달리, 국가별로 보았을 때 크로스 셀 비율은 대부분의 나라에서 꾸준히 증가
- 이유 : 크로스셀 비율이 높았던 일본 여행이 전체에서 차지하는 비중이 줄어들면서 전체 국가를 기준으로 한 크로스셀 비율이 전월대비 하락
- 버클리대학의 여/남 입시결과
대푯값을 사용할 때 주의해야 할 점
- 가장 일반적으로 활용되는 대푯값은 평균
- 데이터가 전규분포에 가까우면 대푯값으로 평균을 써도 괜찮음
- 하지만, 정규분포가 아니거나 아웃라이어가 있는 경우 평균은 그 데이터를 대표하지 못하는 경우가 많음
- 통계학에서는 중앙값(median), 최빈값(mode)을 데이터 특성에 맞게 사용
- 데이터 분포를 확인하고 대표값을 설정해야 함
- 산점도나 상자수염(box-and whisker plot)을 그려보기
- 데이터 시각화를 통해 분석해야 함
- 분석을 막 시작하는 시점에 해당 데이터셋이 어떻게 구성돼 있는지 확인하는 탐색적 분석 과정에서 훨씬 더 유용하에 활용됨
- 탐색적 데이터 분석(EDA, Exploratory Data analysis) : 데이터의 구조와 형태, 분포 등 다각적으로 확인해야 함
생존자 편향(survivorship bias) 피하기
- 제 2차 세계대전 당시 전투기 장갑 보강
- 전투기들의 생존율을 높이기 위해 귀환한 전투기에 적탄을 맞은 위치에 장갑을 보완하는 프로젝트
- 통계학자 아브라함 발드는 피탄 흔적이 많은 동체와 날개가 아니라 상대적으로 적은 엔진과 조종석을 집중적으로 보강해야 한다는 의견을 주장
AARRR 주요 지표
- acquistion
- install, singup, CAC, attribution, CTR, Source, Medium, campaign, ROAS, bounce rate
- activation
- funnel Conversion
- CTR
- PV, Screenview
- Query Count
- search keyword rank
- retention
- Classic retention
- range retention
- rolling retention
- DAU / MAU
- frequency
- revenue
- Sales
- transaction
- purchase rate
- ARPU
- ARPPU
- ARPDAU
- ASP
- LTV
- referral
- Viral Coefficient
- invitation
- share
- post
- adoption rate
지표를 잘 활용하기 위해 우선적으로 고려해야 할 점
- 지금 가장 중요한 지표가 무엇인가?
- 현실적으로 앞에 소개한 모든 지표를 사용하는것은 리소스 낭비
OMTM(one Metric that matters)
- 지금 가장 중요한 지표
- = NSM, north start metric
- 북극성 지표
- OMTM의 가치는 구성원들이 바라보는 방향성을 일치시키고 자원을 집중하는데에서 나옴
- OMTM 정의
- 고려해야 할 점
- 어떤 비즈니스 모델을 가진 서비스를 만들고 있는가?
- 서비스 라이프 사이클을 고려할 때 우리는 어떤 단계에 있는가?
- 지금 가장 신경쓰이는 단 하나의 문제를 찾아보자. 어떤 문제인가?
- 우리가 원하는 행동을 하는 사용자와 그렇지 않은 사용자는 무엇이 가장 다른가?
- 4번째를 구분할 수 있는 이벤트나 속성은 무엇인가? 그 추세가 달라지는 지점은 어디인가?
- 고려해야 할 점
- OMTM & KPI & OKR
- OMTM vs KPI
- OMTM
- 성장을 목표로 하는 지표
- 모두가 공유하는 하나의 목표
- 서비스가 진짜 잘 되고 있는지를 알려주는 중요한 지표
- KPI = key perfromance index
- 일반적으로 평가를 위해 활용하는 지표
- 달성 여부 자체가 굉장히 중요함
- 그 자체가 목표에 가까운 지표
- 팀이나 부서별로 서로 다르게 설정됨
- 한번 정해지면 평가할때까지 거의 바뀌지 않음
- 잘못 설정되었다는 사실을 알더라도 타 부서와의 공정성 문제 등을 고려해서 수정하지 못하는 경우가 많음
- OMTM
- OMTM vs OKR
- OKR = objectives & key results
- 구글이 도입한 목표관리 체계
- 3~5개의 목표(objectives), 목표당 3~5개정도의 핵심결과( key results)로 구성됨
- 목표 (objectives)
- 매우 도전적인 목표
- 주로 정성적인 언어로 표현되며, 구성원들의 가슴을 뛰게 할 수 있는 크고 담대한 목표를 설정해야 함
- 핵심 결과(key results)
- 목표를 달성하기 위한 구체적인 결과 지표
- 객관적으로 측정하고 모니터링 할 수 있는 지표
- 하나의 목표에 연계된 핵심 결과는 3개이하를 권장함
- 목표 (objectives)
- 도전적인 목표, 전사적인 정렬(alignment), 투명한 공유를 강조
- 목표는 굉장히 도전적이고 어려운 수준으로 정해야 함
- 전사가 나아가야 할 방향과 목표가 정해지면 그 방향성과 일치하도록 각 사업부서의 OKR이나 개인의 OKR을 정하도록 하는 식
- OKR = objectives & key results
- OMTM vs KPI
Reference
양승화, 『그로스해킹』, 위키북스(2021.1.14)
'ML & DL > 데이터분석' 카테고리의 다른 글
[데이터분석] A/B 테스트 (0) | 2023.03.28 |
---|---|
[데이터분석] AARRR (0) | 2023.03.27 |
[데이터분석] 그로스해킹 (0) | 2023.03.27 |
Comments