일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- PAPER
- 스택
- knn
- 논문editor
- 논문작성
- mMAPE
- 에러해결
- Python
- Overleaf
- KAKAO
- 코테
- Pycaret
- TypeError
- Scienceplots
- SMAPE
- 카카오
- Alignments
- 프로그래머스
- 파이썬을파이썬답게
- 논문
- n_neighbors
- n_sample
- Mae
- python 갯수세기
- MAPE
- 평가지표
- iNT
- mes
- RMES
- Tire
- Today
- Total
목록ML & DL/기타 통계학 (5)
EunGyeongKim
히스토그램 경험적 히스토그램 관측한 자룔르 이용하여 그린 히스토그램으로 자료를 구간별로 분류하고 구간별 도수를 계산한 뒤 도수를 밀도단위로 바꾸어 밀도단위 히스토그램으로 나타낸것 하지만 시행횟수가 적으면 합의 분포가 정규분포 곡선에 잘 들어맞지 않음 확률 히스토그램 합이 가질수 있는 값을 확률로 계산하여 히스토그램으로 나타냄 중심극한정리(Central limit Theorem) 시행횟수(n)가 증가함에 따라 합이나 평균의 확률 히스토르갬이 정규분포곡선으로 수렴해 가는것 정규분포곡선 모집단의 분포를 수학적인 모형으로 표현하는 이상적인 히스토그램 mu = 모평균, sigma = 모표준편차 특히 평균이 0이고 표준편차가 1인 정규분포를 표준정규분포라 하고 Z~N(0,1)으로 표시 표준 정규분포의 확률밀도함수 ..
정규분포 히스토그램의 일종 해당 데이터의 평균( \( \mu \) )과 표준편차( \( \sigma \) )가 포함된 정규 분포 함수를 이용하여 데이터를 표준화시키면 해당 데이터의 히스토그램을 정규분포곡선으로 표현할 수 있음 실제 자료의 히스토그램을 매끄럽게 만들어주는 수학적 모델 \( f(x) \)는 확률 밀도 함수(probability density fuction)라고도 함 표준 정규분포(standard normal distribution) 곡선 특별히 평균( \( \mu \) )이 0이고, 표준편차 \( \sigma \) )가 1인 정규분포 곡선 중요한 성질 평균을 중심으로 좌우 대칭 종 모양(bell-shaped)으로 봉우리가 하나 평균과 표준편차에 의해 모양이 결정됨 이를 이용해 면적을 구할 수..
백분위수 데이터를 크기순으로 정렬한 후 100개의 균등한 영역으로 나누어 표시한 99개의 경계점 값 히스토그램이 좌우 대칭이 아닌경우 주로 사용함 p백분위 그 값보다 작은값들이 p%, 그값보다 큰 값이 (100-p)%가 되는 경계값 p99 → 모든 데이터의 99%가 p99보다 작다는 의미 사분위수 백분위수 가운데 25, 50, 75번째 백분위수 → 1사분위수, 2사분위수, 3사분위수 라고 부름 2사분위수는 중앙값 사분위수 범위(Inter-Quartile Range, IRQ) 3사분위수에서 1사분위수 사이의 범위 상자그림(boxplot) 사분위수 범위를 그래프로 나타낸것 수염 (whisker) 박수의 각 모서리 (Q1, Q3)으로부터 사분위수 범위(IRQ)의 1.5배 내에 있는 가장 멀리 떨어져 있는 점까..
중심값 측정 산술 평균 (arithmetic mean ) : 모든 값을 합친 후 데이터 값의 수로 나눈 값 → = 평균 import numpy as np np.mean([11,1,5,18,23]) 중앙값(median) : 데이터셋이 순서대로 정렬될 때 데이터셋의 가운데 있는 숫자 np.meadian([11,15,17,14]) # 14.5 np.meadian([11,15,17,14, 31]) # 15 변동계수 (coefficient of variation) : 데이터의 표준 편차와 평균의 비율로 정의됨 편차측정 범위 : 극잔적인 두 값이 얼마나 멀리 떨어져 있는지 알려줌. np.max(frends) = np.min(frends) 표준편차(standard deviation) : 수식 : $s = \sqrt{..
상관관계 : 두 변수 X, Y의 관계 상관관계 분석 방법 종류 MIC(Maximal Information Coefficient) : 최대정보 상관계수 히스토그램의 구간을 나누는 방법을 다양하게 시도한 다음(→ 히스토그램의 구간[bin]을 나누어 추정하게 될때 구간의 갯수나 경계 위치에 따라 추정오차가 커질 수 있음. 그래서 다양하게 시도), 그 결과로 구한 다양한 상호 정보량중에서 가장 큰 값 을 선택하여 정규화 한 값 python의 minepy 패키지를 사용하면 MIC를 구할 수 있음. 통계에서 MIC는 두변수 X 와 Y사이의 선형 또는 비선형 연관강도를 측정한 것 MIC는 최대정보기반 비모수 탐색 통계 클래스에 속함. MIC(D) = max_{XY