차이 검정 (가구주 직업별 소득 차이 검정)

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

EunGyeongKim

차이 검정 (가구주 직업별 소득 차이 검정) 본문

기타 공부/금융

차이 검정 (가구주 직업별 소득 차이 검정)

EunGyeongKim 2023. 3. 21. 09:51

동일 집단 간 차이 검정

유의성 검정(significant test)
- 통계에서 나타나는 현상이 우연인지 아니면 실질적인지 밝혀내는 통계적 방법

가설 증명 방법

가설 종류
- 귀무가설(null hypothesis)
  - 차이가 우연라고 하는 주장
  - 예시) 상자의 평균이 0이다
- 대립가설(alternative hypothesis)
  - 차이가 실질적이라고 하는 주장
  - 예시) 상자의 평균이 양수이다
증명방법은 모순에 의한 논증법
- 만약 통계량에 의해 귀무가설이 발생할 확률이 거의 없다는 모순에 도달하면 귀무가설 기각!
→ 일단 귀무가설이 맞다고 인정한 후, 우리가 가지고 있는 통계량 확인

검정 통계량과 유의수준

귀무가설을 검정하기 위해서는 검정 통계량이 필요
- 검정 통계량 (z-statistic : z)
  - 자료에서 얻은 통계치와 귀무가설하에서 기대되는 값과의 차이를 측정하고, 이러한 차이를 표준오차로 나누어준 값으로 계산
  - 즉, 귀무가설이 맞다고 가정했을때, 차이를 표준오차 단위로 계산한것이 검정 통계량
  - z값은 표준정규분포를 따름
    - z값을 이용한 검정을 z-검정(z-test)라고 함
  - z값이 크면 자료에서 얻은 통계치와 귀무가설이 주장하는 값과의 차이가 크다는 의미
    - 귀무가설이 받아들여질 가능성이 적다는것을 의미
    예시 )z값이 7.6보다 클 확률은 0% → 가구의 소득차이가 우연에 의해 발생할 가능성이 0% 라는 의미
    - 이 확률을 관측된 유의 수준(observed significance level) 또는 p값(p-value)라고 함
  - 귀무가설이 옳다고 가정한 경우 표본을 통해서 구한값이 더 극단적일 경우의 확률을 모두 더해도 5%가 되지 않으면, 귀무가설이 옳다고 볼 수 없는것.
    - 극단적인 확률을 모두 더해서 5%보다 적으면, 극단적으로 나올 확률이 그만큼 적다는 뜻.
      - 즉, 귀무가설이 맞다면 동일한 연구를 100번할때 오직 5번만 지금 얻은 z값과 비슷하거나 또는 그 이상의 극단적인 값을 얻을 수 있기 때문에 귀무가설은 억지이고, 따라서 귀무가설 기각.
    - 유의수준 p값은 지금 관측한 값만큼 또는 그 시상의 극단적인 관측치를 얻을 확률.
      - 이 확률은 귀무가설이 옳다는 가정 하에서 계산됨
      - p값이 작을수록 귀무가설에 반하는 증거가 그만큼 커짐
  - p값이 유의수준보다 작거나 같으면 귀무가설 기각.
    - 유의수준은 대체로 5%임.

제 1종 오류와 제2종 오류

가설검증시 발생하는 오류

1종오류 (type 1 error)
- 귀무가설이 맞는에 이를 기각하는 오류
- p값이 이에 속함(보통 5%임)

2종오류 (type 2 error)

귀무가설이 틀렸는데 이를 기각하지 못하는 오류

  ![스크린샷 2023-03-20 오후 7.53.17.png](<https://s3-us-west-2.amazonaws.com/secure.notion-static.com/a560fe5b-613d-402f-bfd4-66432ac09f13/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA_2023-03-20_%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE_7.53.17.png>)

t-검정
- 표본의 크기가 적을경우 t-분포를 이용해 p값을 구하고 이를 바탕으로 검정하는 방식
- t-분포에서는 측정횟수를 반영한 자유도에 따라 t-분포곡선이 달라짐
- t-분포곡선은 정규분포곡선과 비슷하거나, 꼬리부분이 더 두꺼움
- 자유도가 커질수록(=시행횟수가 많을수록) t-분포곡선은 정규분포곡선과 가까워짐.
  - 자유도 = 측정횟수(n) - 1

두 집단간 차이 검정

예시) 남자/여자, 기혼/미혼, 기능직/사무직 소득 등

두 집단 간 평균의 차이가 실질적인지 검정하기 위해서는 두 집단별로 평균을 구한뒤 그 차이와 그 차이에 대한 표준오차 계산하기 → 그 차이가 표준오차 단위로 얼마나 되는지 살펴보기
복수표본 z-통계량(two-sample z-statistics)
- 두 집단간 관측된 차이가 우연에 의한것인지 실질적인 것인지 판단하는 지표가 됨

세 개 이상 집단 간 차이 검정

x^2 검정(카이제곱 검정)사용
- 카이제곱 통계량은 관측된도수와 기대도수의 차이가 클수록 커짐
- 카이제곱 검정 종류
  - 적합도 검정
    - 관찰된 비율 값이 기대값과 같은지 조사하는 검정
    - 어떤 모집단의 표본이 그 모집단을 대표하는지 하는 검정
  - 동질성 검정
    - 두 집단의 분포가 동일한지 검정
  - 독립성 검정
    - 두개 이상의 변수가 서로 독립인지 검정
- 카이제곱검정으로 p값을 얻게되고, 유의한지 판단하면 됨(0.05 )
- 카이제곱 분포는 항상 오른쪽으로 치우치며, 자유도가 클수록 정규분포와 유사해짐

동일 집단 간 차이 검정

유의성 검정(significant test)
- 통계에서 나타나는 현상이 우연인지 아니면 실질적인지 밝혀내는 통계적 방법

가설 증명 방법

가설 종류
- 귀무가설(null hypothesis)
  - 차이가 우연라고 하는 주장
  - 예시) 상자의 평균이 0이다
- 대립가설(alternative hypothesis)
  - 차이가 실질적이라고 하는 주장
  - 예시) 상자의 평균이 양수이다
증명방법은 모순에 의한 논증법
- 만약 통계량에 의해 귀무가설이 발생할 확률이 거의 없다는 모순에 도달하면 귀무가설 기각!
→ 일단 귀무가설이 맞다고 인정한 후, 우리가 가지고 있는 통계량 확인

검정 통계량과 유의수준

귀무가설을 검정하기 위해서는 검정 통계량이 필요
- 검정 통계량 (z-statistic : z)
  - 자료에서 얻은 통계치와 귀무가설하에서 기대되는 값과의 차이를 측정하고, 이러한 차이를 표준오차로 나누어준 값으로 계산
  - 즉, 귀무가설이 맞다고 가정했을때, 차이를 표준오차 단위로 계산한것이 검정 통계량
  - z값은 표준정규분포를 따름
    - z값을 이용한 검정을 z-검정(z-test)라고 함
  - z값이 크면 자료에서 얻은 통계치와 귀무가설이 주장하는 값과의 차이가 크다는 의미
    - 귀무가설이 받아들여질 가능성이 적다는것을 의미
    예시 )z값이 7.6보다 클 확률은 0% → 가구의 소득차이가 우연에 의해 발생할 가능성이 0% 라는 의미
    - 이 확률을 관측된 유의 수준(observed significance level) 또는 p값(p-value)라고 함

귀무가설이 옳다고 가정한 경우 표본을 통해서 구한값이 더 극단적일 경우의 확률을 모두 더해도 5%가 되지 않으면, 귀무가설이 옳다고 볼 수 없는것.
- 극단적인 확률을 모두 더해서 5%보다 적으면, 극단적으로 나올 확률이 그만큼 적다는 뜻.
  - 즉, 귀무가설이 맞다면 동일한 연구를 100번할때 오직 5번만 지금 얻은 z값과 비슷하거나 또는 그 이상의 극단적인 값을 얻을 수 있기 때문에 귀무가설은 억지이고, 따라서 귀무가설 기각.
- 유의수준 p값은 지금 관측한 값만큼 또는 그 시상의 극단적인 관측치를 얻을 확률.
  - 이 확률은 귀무가설이 옳다는 가정 하에서 계산됨
  - p값이 작을수록 귀무가설에 반하는 증거가 그만큼 커짐
p값이 유의수준보다 작거나 같으면 귀무가설 기각.
- 유의수준은 대체로 5%임.

제 1종 오류와 제2종 오류

가설검증시 발생하는 오류
- 1종오류 (type 1 error)
  - 귀무가설이 맞는에 이를 기각하는 오류
  - p값이 이에 속함(보통 5%임)
- 2종오류 (type 2 error)
  - 귀무가설이 틀렸는데 이를 기각하지 못하는 오류

t-검정
- 표본의 크기가 적을경우 t-분포를 이용해 p값을 구하고 이를 바탕으로 검정하는 방식
- t-분포에서는 측정횟수를 반영한 자유도에 따라 t-분포곡선이 달라짐
- t-분포곡선은 정규분포곡선과 비슷하거나, 꼬리부분이 더 두꺼움
- 자유도가 커질수록(=시행횟수가 많을수록) t-분포곡선은 정규분포곡선과 가까워짐.
  - 자유도 = 측정횟수(n) - 1

두 집단간 차이 검정

예시) 남자/여자, 기혼/미혼, 기능직/사무직 소득 등

두 집단 간 평균의 차이가 실질적인지 검정하기 위해서는 두 집단별로 평균을 구한뒤 그 차이와 그 차이에 대한 표준오차 계산하기 → 그 차이가 표준오차 단위로 얼마나 되는지 살펴보기
복수표본 z-통계량(two-sample z-statistics)
- 두 집단간 관측된 차이가 우연에 의한것인지 실질적인 것인지 판단하는 지표가 됨

세 개 이상 집단 간 차이 검정

x^2 검정(카이제곱 검정)사용
- 카이제곱 통계량은 관측된도수와 기대도수의 차이가 클수록 커짐
- 카이제곱 검정 종류
  - 적합도 검정
    - 관찰된 비율 값이 기대값과 같은지 조사하는 검정
    - 어떤 모집단의 표본이 그 모집단을 대표하는지 하는 검정
  - 동질성 검정
    - 두 집단의 분포가 동일한지 검정
  - 독립성 검정
    - 두개 이상의 변수가 서로 독립인지 검정
- 카이제곱검정으로 p값을 얻게되고, 유의한지 판단하면 됨(0.05 )
- 카이제곱 분포는 항상 오른쪽으로 치우치며, 자유도가 클수록 정규분포와 유사해짐

저작자표시 (새창열림)

'기타 공부 > 금융' 카테고리의 다른 글

불황과 호황 예측(로짓 알고리즘) (0)	2023.03.27
카이제곱을 이용한 차이 검정 (성별,직업군별 소득차이 검정) (1)	2023.03.25
차이 검정 (30대 1인 가구주 성별에 따른소득차이 검정) (0)	2023.03.21
표본추출(가구평균소득에 대한 신뢰구간구하기) (0)	2023.03.20
리먼브라더스 사태과, 근 3개년 주식 비교(주가수익률, 주가등락, 6개월 보유시 최대예상손실액) (0)	2023.03.20

'기타 공부/금융' Related Articles

Comments

EunGyeongKim

차이 검정 (가구주 직업별 소득 차이 검정) 본문

차이 검정 (가구주 직업별 소득 차이 검정)

동일 집단 간 차이 검정

가설 증명 방법

검정 통계량과 유의수준

제 1종 오류와 제2종 오류

두 집단간 차이 검정

세 개 이상 집단 간 차이 검정

동일 집단 간 차이 검정

가설 증명 방법

검정 통계량과 유의수준

제 1종 오류와 제2종 오류

두 집단간 차이 검정

세 개 이상 집단 간 차이 검정

'기타 공부 > 금융' 카테고리의 다른 글

티스토리툴바