[통계] 기초통계

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

EunGyeongKim

[통계] 기초통계 본문

ML & DL

[통계] 기초통계

EunGyeongKim 2022. 2. 5. 22:29

중심값 측정

산술 평균 (arithmetic mean ) : 모든 값을 합친 후 데이터 값의 수로 나눈 값

→ = 평균

import numpy as np
np.mean([11,1,5,18,23])

중앙값(median) : 데이터셋이 순서대로 정렬될 때 데이터셋의 가운데 있는 숫자

np.meadian([11,15,17,14])
# 14.5
np.meadian([11,15,17,14, 31])
# 15

변동계수 (coefficient of variation) : 데이터의 표준 편차와 평균의 비율로 정의됨

편차측정

범위 : 극잔적인 두 값이 얼마나 멀리 떨어져 있는지 알려줌.

np.max(frends) = np.min(frends)

표준편차(standard deviation) :
- 수식 : $s = \sqrt{ \sum(x - \hat x)^2 \over n }$
  - s는 표본 표준 편타
  - x는 각각의 개별 데이터 포인트
  - $\hat x$ 은 데이터의 평균
  - n은 데이터 포인트 수
- 거리 계산식에서 파생됨
- 데이터 값이 산술 평균으로부터 얼마나 멀리 떨어져 있는지 일종의 평균 거리
```
np.std(frend) 
```
z-score
- 단일 데이터 값이 평균으로부터 얼마나 멀리 떨어져 있는지 알려주는 방법
- 특정 데이터 요소마다 개별화된 값
- $z = {(x - \hat x)\over s}$
  - x = 는 데이터 포인트
  - $\hat x$는 평균
  - x는 표준편차
    - 표준편차 : 평균과 떨어진 일종의 평균거리
상관계수 ( correlation coefficients)
- 주 변수 간 연관성/관계의 강도를 설명하는 양적 측정.
- -1과 1 사이에 있음
- 절댓값기 클수록 변수간의 관계가 강해짐
- 가장 강한 상관관계는 -1 또는 0이다
- 가장 약한 상관관계는 0이다
- 양의 상관관계란 한 변수가 증가하면 다른 변수도 증가하는 경향이 있음을 의미
- 음의 상관관계란 한 변수가 증가할때 다른 변수는 감소하는 경향이 있음을 의미
```
# 변수들 사이의 상관관계
df.corr()
```
- 상관계수 신뢰시 주의해야할점
  - 일반석으로 상관관계가 변수간의 선형관계를 측정하려고 시도함
  - 즉, 측정에서 가시적인 상관관계가 없다고 해서 변수간에 아무런 관계가 없음을 의미하지는 않음.
  - 선을 쉽게 통과하는 최상의 선이 존재 하지 않는다는 것을 의미함.
정규분포 (normal distribution)
- 곡선과 유사한 특정 확률 분포를 갖는것으로 정의됨.

Reference

데이터 과학자가 되는 핵심기술, 시난 오즈데미르, acorn+PACKT technical Book

'ML & DL' 카테고리의 다른 글

[pycaret] Knn 오류 (Expected n_neighbors <= n_samples,) (0)	2022.04.22
[deep learning] early stopping (0)	2022.02.06
[머신러닝] EDA(Exploratory Data Analysis) 탐색적 데이터 분석 (0)	2022.02.04
[ML] 예측방법과 종류 (0)	2022.02.03
[통계] 상관분석(Correlation Analysis) (0)	2022.01.15

'ML & DL' Related Articles

Comments

EunGyeongKim

[통계] 기초통계 본문

[통계] 기초통계

중심값 측정

편차측정

Reference

'ML & DL' 카테고리의 다른 글

티스토리툴바