일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 논문작성
- 파이썬을파이썬답게
- KAKAO
- Alignments
- knn
- SMAPE
- Mae
- TypeError
- Python
- MAPE
- Overleaf
- 스택
- 코테
- RMES
- 프로그래머스
- 논문editor
- 논문
- python 갯수세기
- iNT
- 카카오
- mMAPE
- n_sample
- PAPER
- Pycaret
- Tire
- Scienceplots
- n_neighbors
- mes
- 평가지표
- 에러해결
- Today
- Total
목록분류 전체보기 (175)
EunGyeongKim

시계열 데이터는 시간의 흐름에 따라 순서대로 관측되어 시간의 영향을 받는 데이터를 말함(주가, 실업률 데이터, 통화량, 금리와 같은 데이터). 과거 시계열 데이터의 패턴을 식별하고, 이 패턴을 이용하여 미래의 시계열의 움직임을 예측함 시계열 데이터 구분하기 시계열 데이터는 추세(Trend), 순환변동(Cycle), 계절변동(Seasonal), 우연변동(Random Fluctuations)으로 구분하여 분석 가능 추세 : 장기간에 걸쳐서 이루어지는 변동 순환변동 : 계절변동이 아닌 주기적으로 나타나는 변동 계절변동 : 계절에 따라 나타나는 변동 우연변동 : 규칙적인 움직임이 없는 변동 = 백색잡음 (white noise) 평균이 0이고 분산이 일정한 변동 시계열 예측모델 시계열 회귀분석(time seri..

A/B 테스트 두개의 변형 A와 B를 사용하는 종합 대조실험(controlled experiment) 통계적 가설 검정 또는 2-표본 가설 검정의 형태 두가지 서로 다른 옵션에 대한 사용자의 반응을 측정함으로써 어떤 옵션이 더 효과적인지 검증하는 과정 설계 가설 실험을 통해 무엇을 확인하고 싶은지가 명확해야 함 실험 집단 / 통제 집단 전체 모수 둥 실험조건에 할당되는 사용자들을 어떤 기준으로 구분하고, 어떤 비율로 할당할것인지 정의해야 함 독립변수 설명변수, 또는 예측변수 인과관계에서 원인이 되는 변수 종속변수에 영향을 줄거라고 기대되는 변수 종속변수 독립변수에 의해 영향을 받을것으로 기대되는 변수 인과관계에서 결과가 되는 변수 종속변수의 변화량에 따라 실험의 성과를 판별할 수 있음 측정가능해야 함 종..
In [1]: import datetime import requests import pandas as pd import numpy as np from bs4 import BeautifulSoup In [2]: key = 'key' url = 'https://ecos.bok.or.kr/api/StatisticTableList/'+key+'/xml/kr/1/10000' raw = requests.get(url) xml = BeautifulSoup(raw.text, 'xml') raw_data = xml.find_all('row') data = [] for i in range(len(raw_data)): p_stat_code = raw_data[i].P_STAT_CODE.string.strip() stat_c..

지표 지표의 속성 스톡 (stock) 특정 시점의 스냅숏(snapshor)에 해당하는 지표 시작과 끝이라는 개념이 없고 특정한 찰나에 관찰할 수 있는 누적된 값 예시 ) 누적 가입자 수, 누적 거래액, 레벨 1인 사용자 수 등 플로 (flow) 시작과 끝에 대한 시간 범위가 존재 스톡 지표에 비해 더 많은 정보를 가지고 있음 지표의 변화 방향이나 변화 추이, 속도에 대해 더 많은 세부적인 정보를 줄 수 있음 스톡에 해당하는 많은 지표들은 허무지표(vanity metric)에 가까움 일정한 시간동안의 변화량을 나타내는 지표 예시 ) 1월 1일의 가입자 수, 2월 1일 하루 매출, 일 평균 주고받은 메세지 수 등 핵심 지표를 선정하거나 그로스 실험의 성과를 측정할 때 목표로 하는 지표가 스톡인지 플로인지 정..
개요 지표를 바라보는 관점 과업기반 (task-based) 각 조직별로 담당하는 업무를 우선 정의한 후 업무를 통해 발생하는 수치들을 지표화해서 관리하는 것 예시 ) 이벤트 참여자 수, CS 문의수, 앱스토어 리뷰 수 등 전체적으로 서비스 관점에서 무엇이 중요한 지표인지 판단하기가 어려움 팀별로 진행중인 업무가 언제든 추가되거나 변경될 수 있기 떄문에 모니터링 하는 지표가 수시로 달라질 수 있음 대부분 놀지 않았다라는것을 증명하기 위해 사용됨 프레임 워크 기반 (fremework-based) 서비스 이용 흐름에 따른 핵심 퍼널과 지표를 정의하고, 해당 지표를 개선하기 위한 과업을 수행함. 효율적인 지표 관리 사용자의 서비스 이용 흐름(ues flow)에 따라 단계별 주요 지표를 전체 서비스관점에서 정의해..

그로스 해킹이란? 성장할 수 있는 방법을 ‘해킹’하는것 이유 고객의 취향 세분화 성공하기 확실하지 않음 유행이나 트랜드가 한순간에 바뀌기도 함 린 스타트업(lean startup) : 극심한 불확실성 속에서 새로운 제품과 서비스를 만드는 새로운 방법을 제안함 아이디어를 빠르게 제품으로 만듦 고객이 제품에 대해 어떻게 반응하는지를 측정 그 결과를 통해 배움을 얻고 지속적으로 제품을 개선해 나가는 제품 개발 방법론을 의미 ‘아이디어 - 개발 - 측정 - 개선’ 으로 이어지는 피드백 순환고리(feedback loop)를 최대한 빨리 진행하면서 작은 성공을 쌓아 서비스를 점진적으로 개선하는것이 린 스타트업의 철학 아무도 원하지 않는 제품을 오랜 기간 열심히 만드는것은 굉장히 어리석은일 빠른 출시와 지속적인 개선..

히스토그램 경험적 히스토그램 관측한 자룔르 이용하여 그린 히스토그램으로 자료를 구간별로 분류하고 구간별 도수를 계산한 뒤 도수를 밀도단위로 바꾸어 밀도단위 히스토그램으로 나타낸것 하지만 시행횟수가 적으면 합의 분포가 정규분포 곡선에 잘 들어맞지 않음 확률 히스토그램 합이 가질수 있는 값을 확률로 계산하여 히스토그램으로 나타냄 중심극한정리(Central limit Theorem) 시행횟수(n)가 증가함에 따라 합이나 평균의 확률 히스토르갬이 정규분포곡선으로 수렴해 가는것 정규분포곡선 모집단의 분포를 수학적인 모형으로 표현하는 이상적인 히스토그램 mu = 모평균, sigma = 모표준편차 특히 평균이 0이고 표준편차가 1인 정규분포를 표준정규분포라 하고 Z~N(0,1)으로 표시 표준 정규분포의 확률밀도함수 ..
In [1]: import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt from matplotlib import rcParams from matplotlib import font_manager, rc %matplotlib inline from scipy.stats import chi2 import scipy.stats as stats import random pd.options.display.float_format = '{:, .1f}'.format # 소숫점 첫째자리까지 출력 성별 : 1 남자, 2 여성 직업별 코드 관리자 전문가 및 관련 종사사 사무종사자 서비스종사자 판매종사자 농입어업 숙련종..

정규분포 히스토그램의 일종 해당 데이터의 평균(

백분위수 데이터를 크기순으로 정렬한 후 100개의 균등한 영역으로 나누어 표시한 99개의 경계점 값 히스토그램이 좌우 대칭이 아닌경우 주로 사용함 p백분위 그 값보다 작은값들이 p%, 그값보다 큰 값이 (100-p)%가 되는 경계값 p99 → 모든 데이터의 99%가 p99보다 작다는 의미 사분위수 백분위수 가운데 25, 50, 75번째 백분위수 → 1사분위수, 2사분위수, 3사분위수 라고 부름 2사분위수는 중앙값 사분위수 범위(Inter-Quartile Range, IRQ) 3사분위수에서 1사분위수 사이의 범위 상자그림(boxplot) 사분위수 범위를 그래프로 나타낸것 수염 (whisker) 박수의 각 모서리 (Q1, Q3)으로부터 사분위수 범위(IRQ)의 1.5배 내에 있는 가장 멀리 떨어져 있는 점까..