Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- KAKAO
- Mae
- 평가지표
- MAPE
- python 갯수세기
- RMES
- 파이썬을파이썬답게
- 논문
- knn
- Tire
- 에러해결
- 스택
- n_sample
- 코테
- 카카오
- Overleaf
- mMAPE
- iNT
- Scienceplots
- 논문작성
- 프로그래머스
- Alignments
- Python
- PAPER
- TypeError
- Pycaret
- mes
- n_neighbors
- 논문editor
- SMAPE
Archives
- Today
- Total
EunGyeongKim
[통계] 기초통계 본문
중심값 측정
- 산술 평균 (arithmetic mean ) : 모든 값을 합친 후 데이터 값의 수로 나눈 값
→ = 평균
import numpy as np
np.mean([11,1,5,18,23])
- 중앙값(median) : 데이터셋이 순서대로 정렬될 때 데이터셋의 가운데 있는 숫자
np.meadian([11,15,17,14])
# 14.5
np.meadian([11,15,17,14, 31])
# 15
- 변동계수 (coefficient of variation) : 데이터의 표준 편차와 평균의 비율로 정의됨
편차측정
- 범위 : 극잔적인 두 값이 얼마나 멀리 떨어져 있는지 알려줌.
np.max(frends) = np.min(frends)
- 표준편차(standard deviation) :
- 수식 : $s = \sqrt{ \sum(x - \hat x)^2 \over n }$
- s는 표본 표준 편타
- x는 각각의 개별 데이터 포인트
- $\hat x$ 은 데이터의 평균
- n은 데이터 포인트 수
- 거리 계산식에서 파생됨
- 데이터 값이 산술 평균으로부터 얼마나 멀리 떨어져 있는지 일종의 평균 거리
np.std(frend)
- 수식 : $s = \sqrt{ \sum(x - \hat x)^2 \over n }$
- z-score
- 단일 데이터 값이 평균으로부터 얼마나 멀리 떨어져 있는지 알려주는 방법
- 특정 데이터 요소마다 개별화된 값
- $z = {(x - \hat x)\over s}$
- x = 는 데이터 포인트
- $\hat x$는 평균
- x는 표준편차
- 표준편차 : 평균과 떨어진 일종의 평균거리
- 상관계수 ( correlation coefficients)
- 주 변수 간 연관성/관계의 강도를 설명하는 양적 측정.
- -1과 1 사이에 있음
- 절댓값기 클수록 변수간의 관계가 강해짐
- 가장 강한 상관관계는 -1 또는 0이다
- 가장 약한 상관관계는 0이다
- 양의 상관관계란 한 변수가 증가하면 다른 변수도 증가하는 경향이 있음을 의미
- 음의 상관관계란 한 변수가 증가할때 다른 변수는 감소하는 경향이 있음을 의미
# 변수들 사이의 상관관계 df.corr()
- 상관계수 신뢰시 주의해야할점
- 일반석으로 상관관계가 변수간의 선형관계를 측정하려고 시도함
- 즉, 측정에서 가시적인 상관관계가 없다고 해서 변수간에 아무런 관계가 없음을 의미하지는 않음.
- 선을 쉽게 통과하는 최상의 선이 존재 하지 않는다는 것을 의미함.
- 정규분포 (normal distribution)
- 곡선과 유사한 특정 확률 분포를 갖는것으로 정의됨.
Reference
데이터 과학자가 되는 핵심기술, 시난 오즈데미르, acorn+PACKT technical Book
'ML & DL' 카테고리의 다른 글
[pycaret] Knn 오류 (Expected n_neighbors <= n_samples,) (0) | 2022.04.22 |
---|---|
[deep learning] early stopping (0) | 2022.02.06 |
[머신러닝] EDA(Exploratory Data Analysis) 탐색적 데이터 분석 (0) | 2022.02.04 |
[ML] 예측방법과 종류 (0) | 2022.02.03 |
[통계] 상관분석(Correlation Analysis) (0) | 2022.01.15 |
Comments