EunGyeongKim

[통계] 상관분석(Correlation Analysis) 본문

ML & DL

[통계] 상관분석(Correlation Analysis)

EunGyeongKim 2022. 1. 15. 19:10
  • 상관관계 : 두 변수 X, Y의 관계
 

상관관계 분석 방법 종류


 

MIC(Maximal Information Coefficient) : 최대정보 상관계수

  • 히스토그램의 구간을 나누는 방법을 다양하게 시도한 다음(→ 히스토그램의 구간[bin]을 나누어 추정하게 될때 구간의 갯수나 경계 위치에 따라 추정오차가 커질 수 있음. 그래서 다양하게 시도), 그 결과로 구한 다양한 상호 정보량중에서 가장 큰 값 을 선택하여 정규화 한 값
  • python의 minepy 패키지를 사용하면 MIC를 구할 수 있음.
  • 통계에서 MIC는 두변수 X 와 Y사이의 선형 또는 비선형 연관강도를 측정한 것
  • MIC는 최대정보기반 비모수 탐색 통계 클래스에 속함.
  • MIC(D) = max_{XY<B(n)} M(D)_{X,Y} = max_{XY<B(n)} I*(D,X,Y)/log(min(X,Y))

 

 


 

PCC(Pearson Correlation Coefficient)

  • 피어슨 상관계수
  • 코시-슈바르트 부등식에 의해 +1과 -1사이의 값을 가짐
  • 상관계수별 특징
+1  완벽한 양의 선형 상관관계
0 선형상관관계 없음.
-1 완벽한 음의 선형 상관관계
  • + / - 로 값이 구분됨
    • +일때는 정(+)의 상관관계
    • -일때는 부(-)의 상관관계
  • 양수의 값끼리 비교분석하고, 음수는 음수값끼리 비교 분석하면 됨

 

MAS(Maximum Asymmerty Score)


 

MEV(Maximum Edge Value)


 

MCN(Minimum Cell Number)

 


GMIC(Generalized Maximal Information Coefficient)


피어슨 상관계수 분석 방법

  • 유의확률(양쪽)
    • 유의수준(Significance level)과 같은 말
    • 통계적인 가설 검정에서 사용되는 기준값
    • 일반적으로 유의수준은 α로 표시하고 95%의 신뢰도를 기준으로 한다면 0.05값이 유의수준 값이 된다.
    • 유의수준 5%란 표본을 추출해서 나온 검정 통계량(차이 또는 효과)이 우연히 나타날 확률이 5%미만이다.
      • 유의수준이 0.05로 정하면 1종오류(귀무가설이 참인데 기각한경우)를 범할 수 있는 최대 허용한계를 5번으로 정하겠다는 뜻
        • 1종오류 예시 : A가 여성이지만 남성으로 말한경우
    • 유의한값. 즉 별 표시, * 가 있는 값들만 가지고 논문에 기재하면 됨.

reference

 

https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=sub_om&logNo=220755048371
https://drhongdatanote.tistory.com/77
https://easy-develop.tistory.com/185
https://minepy.readthedocs.io/en/latest/python.html
https://ko.wikipedia.org/wiki/피어슨_상관_계수
https://cran.r-project.org/web/packages/minerva/minerva.pdf

 

 

Comments