EunGyeongKim

[통계] 기초통계 본문

ML & DL

[통계] 기초통계

EunGyeongKim 2022. 2. 5. 22:29
 

 


중심값 측정

  • 산술 평균 (arithmetic mean ) : 모든 값을 합친 후 데이터 값의 수로 나눈 값

→ = 평균

import numpy as np
np.mean([11,1,5,18,23])
  • 중앙값(median) : 데이터셋이 순서대로 정렬될 때 데이터셋의 가운데 있는 숫자
np.meadian([11,15,17,14])
# 14.5
np.meadian([11,15,17,14, 31])
# 15
  • 변동계수 (coefficient of variation) : 데이터의 표준 편차와 평균의 비율로 정의됨

 

 

 


 

편차측정

  • 범위 : 극잔적인 두 값이 얼마나 멀리 떨어져 있는지 알려줌.
np.max(frends) = np.min(frends)
  • 표준편차(standard deviation) :
    • 수식 : $s = \sqrt{ \sum(x - \hat x)^2 \over n }$
      • s는 표본 표준 편타
      • x는 각각의 개별 데이터 포인트
      • $\hat x$ 은 데이터의 평균
      • n은 데이터 포인트 수
    • 거리 계산식에서 파생됨
    • 데이터 값이 산술 평균으로부터 얼마나 멀리 떨어져 있는지 일종의 평균 거리
    np.std(frend) 
    
  • z-score
    • 단일 데이터 값이 평균으로부터 얼마나 멀리 떨어져 있는지 알려주는 방법
    • 특정 데이터 요소마다 개별화된 값
    • $z = {(x - \hat x)\over s}$
      • x = 는 데이터 포인트
      • $\hat x$는 평균
      • x는 표준편차
        • 표준편차 : 평균과 떨어진 일종의 평균거리
  • 상관계수 ( correlation coefficients)
    • 주 변수 간 연관성/관계의 강도를 설명하는 양적 측정.
    • -1과 1 사이에 있음
    • 절댓값기 클수록 변수간의 관계가 강해짐
    • 가장 강한 상관관계는 -1 또는 0이다
    • 가장 약한 상관관계는 0이다
    • 양의 상관관계란 한 변수가 증가하면 다른 변수도 증가하는 경향이 있음을 의미
    • 음의 상관관계란 한 변수가 증가할때 다른 변수는 감소하는 경향이 있음을 의미
    # 변수들 사이의 상관관계
    df.corr()
    
    • 상관계수 신뢰시 주의해야할점
      • 일반석으로 상관관계가 변수간의 선형관계를 측정하려고 시도함
      • 즉, 측정에서 가시적인 상관관계가 없다고 해서 변수간에 아무런 관계가 없음을 의미하지는 않음.
      • 선을 쉽게 통과하는 최상의 선이 존재 하지 않는다는 것을 의미함.
  • 정규분포 (normal distribution)
    • 곡선과 유사한 특정 확률 분포를 갖는것으로 정의됨.

 

 

 

Reference

데이터 과학자가 되는 핵심기술, 시난 오즈데미르, acorn+PACKT technical Book

 

Comments