EunGyeongKim

차이 검정 (가구주 직업별 소득 차이 검정) 본문

기타 공부/금융

차이 검정 (가구주 직업별 소득 차이 검정)

EunGyeongKim 2023. 3. 21. 09:51

동일 집단 간 차이 검정

  • 유의성 검정(significant test)
    • 통계에서 나타나는 현상이 우연인지 아니면 실질적인지 밝혀내는 통계적 방법

가설 증명 방법

  • 가설 종류
    • 귀무가설(null hypothesis)
      • 차이가 우연라고 하는 주장
      • 예시) 상자의 평균이 0이다
    • 대립가설(alternative hypothesis)
      • 차이가 실질적이라고 하는 주장
      • 예시) 상자의 평균이 양수이다
  • 증명방법은 모순에 의한 논증법
    • 만약 통계량에 의해 귀무가설이 발생할 확률이 거의 없다는 모순에 도달하면 귀무가설 기각!
  • → 일단 귀무가설이 맞다고 인정한 후, 우리가 가지고 있는 통계량 확인

검정 통계량과 유의수준

  • 귀무가설을 검정하기 위해서는 검정 통계량이 필요
    • 검정 통계량 (z-statistic : z)
      • 자료에서 얻은 통계치와 귀무가설하에서 기대되는 값과의 차이를 측정하고, 이러한 차이를 표준오차로 나누어준 값으로 계산
      • 즉, 귀무가설이 맞다고 가정했을때, 차이를 표준오차 단위로 계산한것이 검정 통계량
      • z값은 표준정규분포를 따름
        • z값을 이용한 검정을 z-검정(z-test)라고 함
      • z값이 크면 자료에서 얻은 통계치와 귀무가설이 주장하는 값과의 차이가 크다는 의미
        • 귀무가설이 받아들여질 가능성이 적다는것을 의미
        예시 )z값이 7.6보다 클 확률은 0% → 가구의 소득차이가 우연에 의해 발생할 가능성이 0% 라는 의미
        • 이 확률을 관측된 유의 수준(observed significance level) 또는 p값(p-value)라고 함
      • 귀무가설이 옳다고 가정한 경우 표본을 통해서 구한값이 더 극단적일 경우의 확률을 모두 더해도 5%가 되지 않으면, 귀무가설이 옳다고 볼 수 없는것.
        • 극단적인 확률을 모두 더해서 5%보다 적으면, 극단적으로 나올 확률이 그만큼 적다는 뜻.
          • 즉, 귀무가설이 맞다면 동일한 연구를 100번할때 오직 5번만 지금 얻은 z값과 비슷하거나 또는 그 이상의 극단적인 값을 얻을 수 있기 때문에 귀무가설은 억지이고, 따라서 귀무가설 기각.
        • 유의수준 p값은 지금 관측한 값만큼 또는 그 시상의 극단적인 관측치를 얻을 확률.
          • 이 확률은 귀무가설이 옳다는 가정 하에서 계산됨
          • p값이 작을수록 귀무가설에 반하는 증거가 그만큼 커짐
      • p값이 유의수준보다 작거나 같으면 귀무가설 기각.
        • 유의수준은 대체로 5%임.

제 1종 오류와 제2종 오류

  • 가설검증시 발생하는 오류
    • 1종오류 (type 1 error)
      • 귀무가설이 맞는에 이를 기각하는 오류
      • p값이 이에 속함(보통 5%임)
    • 2종오류 (type 2 error)
      • 귀무가설이 틀렸는데 이를 기각하지 못하는 오류
        ![스크린샷 2023-03-20 오후 7.53.17.png](<https://s3-us-west-2.amazonaws.com/secure.notion-static.com/a560fe5b-613d-402f-bfd4-66432ac09f13/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA_2023-03-20_%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE_7.53.17.png>)
      
  • t-검정
    • 표본의 크기가 적을경우 t-분포를 이용해 p값을 구하고 이를 바탕으로 검정하는 방식
    • t-분포에서는 측정횟수를 반영한 자유도에 따라 t-분포곡선이 달라짐
    • t-분포곡선은 정규분포곡선과 비슷하거나, 꼬리부분이 더 두꺼움
    • 자유도가 커질수록(=시행횟수가 많을수록) t-분포곡선은 정규분포곡선과 가까워짐.
      • 자유도 = 측정횟수(n) - 1

두 집단간 차이 검정

예시) 남자/여자, 기혼/미혼, 기능직/사무직 소득 등

  • 두 집단 간 평균의 차이가 실질적인지 검정하기 위해서는 두 집단별로 평균을 구한뒤 그 차이와 그 차이에 대한 표준오차 계산하기 → 그 차이가 표준오차 단위로 얼마나 되는지 살펴보기
  • 복수표본 z-통계량(two-sample z-statistics)
    • 두 집단간 관측된 차이가 우연에 의한것인지 실질적인 것인지 판단하는 지표가 됨

세 개 이상 집단 간 차이 검정

  • x^2 검정(카이제곱 검정)사용
    • 카이제곱 통계량은 관측된도수와 기대도수의 차이가 클수록 커짐
    • 카이제곱 검정 종류
      • 적합도 검정
        • 관찰된 비율 값이 기대값과 같은지 조사하는 검정
        • 어떤 모집단의 표본이 그 모집단을 대표하는지 하는 검정
      • 동질성 검정
        • 두 집단의 분포가 동일한지 검정
      • 독립성 검정
        • 두개 이상의 변수가 서로 독립인지 검정
    • 카이제곱검정으로 p값을 얻게되고, 유의한지 판단하면 됨(0.05 )
    • 카이제곱 분포는 항상 오른쪽으로 치우치며, 자유도가 클수록 정규분포와 유사해짐

동일 집단 간 차이 검정

  • 유의성 검정(significant test)
    • 통계에서 나타나는 현상이 우연인지 아니면 실질적인지 밝혀내는 통계적 방법

가설 증명 방법

  • 가설 종류
    • 귀무가설(null hypothesis)
      • 차이가 우연라고 하는 주장
      • 예시) 상자의 평균이 0이다
    • 대립가설(alternative hypothesis)
      • 차이가 실질적이라고 하는 주장
      • 예시) 상자의 평균이 양수이다
  • 증명방법은 모순에 의한 논증법
    • 만약 통계량에 의해 귀무가설이 발생할 확률이 거의 없다는 모순에 도달하면 귀무가설 기각!
  • → 일단 귀무가설이 맞다고 인정한 후, 우리가 가지고 있는 통계량 확인

검정 통계량과 유의수준

  • 귀무가설을 검정하기 위해서는 검정 통계량이 필요
    • 검정 통계량 (z-statistic : z)
      • 자료에서 얻은 통계치와 귀무가설하에서 기대되는 값과의 차이를 측정하고, 이러한 차이를 표준오차로 나누어준 값으로 계산
      • 즉, 귀무가설이 맞다고 가정했을때, 차이를 표준오차 단위로 계산한것이 검정 통계량
      • z값은 표준정규분포를 따름
        • z값을 이용한 검정을 z-검정(z-test)라고 함
      • z값이 크면 자료에서 얻은 통계치와 귀무가설이 주장하는 값과의 차이가 크다는 의미
        • 귀무가설이 받아들여질 가능성이 적다는것을 의미
        예시 )z값이 7.6보다 클 확률은 0% → 가구의 소득차이가 우연에 의해 발생할 가능성이 0% 라는 의미
        • 이 확률을 관측된 유의 수준(observed significance level) 또는 p값(p-value)라고 함

  • 귀무가설이 옳다고 가정한 경우 표본을 통해서 구한값이 더 극단적일 경우의 확률을 모두 더해도 5%가 되지 않으면, 귀무가설이 옳다고 볼 수 없는것.
    • 극단적인 확률을 모두 더해서 5%보다 적으면, 극단적으로 나올 확률이 그만큼 적다는 뜻.
      • 즉, 귀무가설이 맞다면 동일한 연구를 100번할때 오직 5번만 지금 얻은 z값과 비슷하거나 또는 그 이상의 극단적인 값을 얻을 수 있기 때문에 귀무가설은 억지이고, 따라서 귀무가설 기각.
    • 유의수준 p값은 지금 관측한 값만큼 또는 그 시상의 극단적인 관측치를 얻을 확률.
      • 이 확률은 귀무가설이 옳다는 가정 하에서 계산됨
      • p값이 작을수록 귀무가설에 반하는 증거가 그만큼 커짐
  • p값이 유의수준보다 작거나 같으면 귀무가설 기각.
    • 유의수준은 대체로 5%임.

제 1종 오류와 제2종 오류

  • 가설검증시 발생하는 오류
    • 1종오류 (type 1 error)
      • 귀무가설이 맞는에 이를 기각하는 오류
      • p값이 이에 속함(보통 5%임)
    • 2종오류 (type 2 error)
      • 귀무가설이 틀렸는데 이를 기각하지 못하는 오류

  • t-검정
    • 표본의 크기가 적을경우 t-분포를 이용해 p값을 구하고 이를 바탕으로 검정하는 방식
    • t-분포에서는 측정횟수를 반영한 자유도에 따라 t-분포곡선이 달라짐
    • t-분포곡선은 정규분포곡선과 비슷하거나, 꼬리부분이 더 두꺼움
    • 자유도가 커질수록(=시행횟수가 많을수록) t-분포곡선은 정규분포곡선과 가까워짐.
      • 자유도 = 측정횟수(n) - 1

두 집단간 차이 검정

예시) 남자/여자, 기혼/미혼, 기능직/사무직 소득 등

  • 두 집단 간 평균의 차이가 실질적인지 검정하기 위해서는 두 집단별로 평균을 구한뒤 그 차이와 그 차이에 대한 표준오차 계산하기 → 그 차이가 표준오차 단위로 얼마나 되는지 살펴보기
  • 복수표본 z-통계량(two-sample z-statistics)
    • 두 집단간 관측된 차이가 우연에 의한것인지 실질적인 것인지 판단하는 지표가 됨

세 개 이상 집단 간 차이 검정

  • x^2 검정(카이제곱 검정)사용
    • 카이제곱 통계량은 관측된도수와 기대도수의 차이가 클수록 커짐
    • 카이제곱 검정 종류
      • 적합도 검정
        • 관찰된 비율 값이 기대값과 같은지 조사하는 검정
        • 어떤 모집단의 표본이 그 모집단을 대표하는지 하는 검정
      • 동질성 검정
        • 두 집단의 분포가 동일한지 검정
      • 독립성 검정
        • 두개 이상의 변수가 서로 독립인지 검정
    • 카이제곱검정으로 p값을 얻게되고, 유의한지 판단하면 됨(0.05 )
    • 카이제곱 분포는 항상 오른쪽으로 치우치며, 자유도가 클수록 정규분포와 유사해짐

Comments