Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
Tags
- Tire
- Pycaret
- MAPE
- 스택
- 에러해결
- iNT
- Overleaf
- Scienceplots
- Python
- n_neighbors
- knn
- PAPER
- Mae
- SMAPE
- 평가지표
- 파이썬을파이썬답게
- mes
- 프로그래머스
- n_sample
- TypeError
- 논문
- Alignments
- 코테
- mMAPE
- KAKAO
- 카카오
- python 갯수세기
- 논문editor
- 논문작성
- RMES
Archives
- Today
- Total
EunGyeongKim
차이 검정 (가구주 직업별 소득 차이 검정) 본문
동일 집단 간 차이 검정
- 유의성 검정(significant test)
- 통계에서 나타나는 현상이 우연인지 아니면 실질적인지 밝혀내는 통계적 방법
가설 증명 방법
- 가설 종류
- 귀무가설(null hypothesis)
- 차이가 우연라고 하는 주장
- 예시) 상자의 평균이 0이다
- 대립가설(alternative hypothesis)
- 차이가 실질적이라고 하는 주장
- 예시) 상자의 평균이 양수이다
- 귀무가설(null hypothesis)
- 증명방법은 모순에 의한 논증법
- 만약 통계량에 의해 귀무가설이 발생할 확률이 거의 없다는 모순에 도달하면 귀무가설 기각!
- → 일단 귀무가설이 맞다고 인정한 후, 우리가 가지고 있는 통계량 확인
검정 통계량과 유의수준
- 귀무가설을 검정하기 위해서는 검정 통계량이 필요
- 검정 통계량 (z-statistic : z)
- 자료에서 얻은 통계치와 귀무가설하에서 기대되는 값과의 차이를 측정하고, 이러한 차이를 표준오차로 나누어준 값으로 계산
- 즉, 귀무가설이 맞다고 가정했을때, 차이를 표준오차 단위로 계산한것이 검정 통계량
- z값은 표준정규분포를 따름
- z값을 이용한 검정을 z-검정(z-test)라고 함
- z값이 크면 자료에서 얻은 통계치와 귀무가설이 주장하는 값과의 차이가 크다는 의미
- 귀무가설이 받아들여질 가능성이 적다는것을 의미
- 이 확률을 관측된 유의 수준(observed significance level) 또는 p값(p-value)라고 함
- 귀무가설이 옳다고 가정한 경우 표본을 통해서 구한값이 더 극단적일 경우의 확률을 모두 더해도 5%가 되지 않으면, 귀무가설이 옳다고 볼 수 없는것.
- 극단적인 확률을 모두 더해서 5%보다 적으면, 극단적으로 나올 확률이 그만큼 적다는 뜻.
- 즉, 귀무가설이 맞다면 동일한 연구를 100번할때 오직 5번만 지금 얻은 z값과 비슷하거나 또는 그 이상의 극단적인 값을 얻을 수 있기 때문에 귀무가설은 억지이고, 따라서 귀무가설 기각.
- 유의수준 p값은 지금 관측한 값만큼 또는 그 시상의 극단적인 관측치를 얻을 확률.
- 이 확률은 귀무가설이 옳다는 가정 하에서 계산됨
- p값이 작을수록 귀무가설에 반하는 증거가 그만큼 커짐
- 극단적인 확률을 모두 더해서 5%보다 적으면, 극단적으로 나올 확률이 그만큼 적다는 뜻.
- p값이 유의수준보다 작거나 같으면 귀무가설 기각.
- 유의수준은 대체로 5%임.
- 검정 통계량 (z-statistic : z)
제 1종 오류와 제2종 오류
- 가설검증시 발생하는 오류
- 1종오류 (type 1 error)
- 귀무가설이 맞는에 이를 기각하는 오류
- p값이 이에 속함(보통 5%임)
- 2종오류 (type 2 error)
- 귀무가설이 틀렸는데 이를 기각하지 못하는 오류
![스크린샷 2023-03-20 오후 7.53.17.png](<https://s3-us-west-2.amazonaws.com/secure.notion-static.com/a560fe5b-613d-402f-bfd4-66432ac09f13/%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA_2023-03-20_%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE_7.53.17.png>)
- 1종오류 (type 1 error)
- t-검정
- 표본의 크기가 적을경우 t-분포를 이용해 p값을 구하고 이를 바탕으로 검정하는 방식
- t-분포에서는 측정횟수를 반영한 자유도에 따라 t-분포곡선이 달라짐
- t-분포곡선은 정규분포곡선과 비슷하거나, 꼬리부분이 더 두꺼움
- 자유도가 커질수록(=시행횟수가 많을수록) t-분포곡선은 정규분포곡선과 가까워짐.
- 자유도 = 측정횟수(n) - 1
두 집단간 차이 검정
예시) 남자/여자, 기혼/미혼, 기능직/사무직 소득 등
- 두 집단 간 평균의 차이가 실질적인지 검정하기 위해서는 두 집단별로 평균을 구한뒤 그 차이와 그 차이에 대한 표준오차 계산하기 → 그 차이가 표준오차 단위로 얼마나 되는지 살펴보기
- 복수표본 z-통계량(two-sample z-statistics)
- 두 집단간 관측된 차이가 우연에 의한것인지 실질적인 것인지 판단하는 지표가 됨
세 개 이상 집단 간 차이 검정
- x^2 검정(카이제곱 검정)사용
- 카이제곱 통계량은 관측된도수와 기대도수의 차이가 클수록 커짐
- 카이제곱 검정 종류
- 적합도 검정
- 관찰된 비율 값이 기대값과 같은지 조사하는 검정
- 어떤 모집단의 표본이 그 모집단을 대표하는지 하는 검정
- 동질성 검정
- 두 집단의 분포가 동일한지 검정
- 독립성 검정
- 두개 이상의 변수가 서로 독립인지 검정
- 적합도 검정
- 카이제곱검정으로 p값을 얻게되고, 유의한지 판단하면 됨(0.05 )
- 카이제곱 분포는 항상 오른쪽으로 치우치며, 자유도가 클수록 정규분포와 유사해짐
동일 집단 간 차이 검정
- 유의성 검정(significant test)
- 통계에서 나타나는 현상이 우연인지 아니면 실질적인지 밝혀내는 통계적 방법
가설 증명 방법
- 가설 종류
- 귀무가설(null hypothesis)
- 차이가 우연라고 하는 주장
- 예시) 상자의 평균이 0이다
- 대립가설(alternative hypothesis)
- 차이가 실질적이라고 하는 주장
- 예시) 상자의 평균이 양수이다
- 귀무가설(null hypothesis)
- 증명방법은 모순에 의한 논증법
- 만약 통계량에 의해 귀무가설이 발생할 확률이 거의 없다는 모순에 도달하면 귀무가설 기각!
- → 일단 귀무가설이 맞다고 인정한 후, 우리가 가지고 있는 통계량 확인
검정 통계량과 유의수준
- 귀무가설을 검정하기 위해서는 검정 통계량이 필요
- 검정 통계량 (z-statistic : z)
- 자료에서 얻은 통계치와 귀무가설하에서 기대되는 값과의 차이를 측정하고, 이러한 차이를 표준오차로 나누어준 값으로 계산
- 즉, 귀무가설이 맞다고 가정했을때, 차이를 표준오차 단위로 계산한것이 검정 통계량
- z값은 표준정규분포를 따름
- z값을 이용한 검정을 z-검정(z-test)라고 함
- z값이 크면 자료에서 얻은 통계치와 귀무가설이 주장하는 값과의 차이가 크다는 의미
- 귀무가설이 받아들여질 가능성이 적다는것을 의미
- 이 확률을 관측된 유의 수준(observed significance level) 또는 p값(p-value)라고 함
- 검정 통계량 (z-statistic : z)
- 귀무가설이 옳다고 가정한 경우 표본을 통해서 구한값이 더 극단적일 경우의 확률을 모두 더해도 5%가 되지 않으면, 귀무가설이 옳다고 볼 수 없는것.
- 극단적인 확률을 모두 더해서 5%보다 적으면, 극단적으로 나올 확률이 그만큼 적다는 뜻.
- 즉, 귀무가설이 맞다면 동일한 연구를 100번할때 오직 5번만 지금 얻은 z값과 비슷하거나 또는 그 이상의 극단적인 값을 얻을 수 있기 때문에 귀무가설은 억지이고, 따라서 귀무가설 기각.
- 유의수준 p값은 지금 관측한 값만큼 또는 그 시상의 극단적인 관측치를 얻을 확률.
- 이 확률은 귀무가설이 옳다는 가정 하에서 계산됨
- p값이 작을수록 귀무가설에 반하는 증거가 그만큼 커짐
- 극단적인 확률을 모두 더해서 5%보다 적으면, 극단적으로 나올 확률이 그만큼 적다는 뜻.
- p값이 유의수준보다 작거나 같으면 귀무가설 기각.
- 유의수준은 대체로 5%임.
제 1종 오류와 제2종 오류
- 가설검증시 발생하는 오류
- 1종오류 (type 1 error)
- 귀무가설이 맞는에 이를 기각하는 오류
- p값이 이에 속함(보통 5%임)
- 2종오류 (type 2 error)
- 귀무가설이 틀렸는데 이를 기각하지 못하는 오류
- 1종오류 (type 1 error)
- t-검정
- 표본의 크기가 적을경우 t-분포를 이용해 p값을 구하고 이를 바탕으로 검정하는 방식
- t-분포에서는 측정횟수를 반영한 자유도에 따라 t-분포곡선이 달라짐
- t-분포곡선은 정규분포곡선과 비슷하거나, 꼬리부분이 더 두꺼움
- 자유도가 커질수록(=시행횟수가 많을수록) t-분포곡선은 정규분포곡선과 가까워짐.
- 자유도 = 측정횟수(n) - 1
두 집단간 차이 검정
예시) 남자/여자, 기혼/미혼, 기능직/사무직 소득 등
- 두 집단 간 평균의 차이가 실질적인지 검정하기 위해서는 두 집단별로 평균을 구한뒤 그 차이와 그 차이에 대한 표준오차 계산하기 → 그 차이가 표준오차 단위로 얼마나 되는지 살펴보기
- 복수표본 z-통계량(two-sample z-statistics)
- 두 집단간 관측된 차이가 우연에 의한것인지 실질적인 것인지 판단하는 지표가 됨
세 개 이상 집단 간 차이 검정
- x^2 검정(카이제곱 검정)사용
- 카이제곱 통계량은 관측된도수와 기대도수의 차이가 클수록 커짐
- 카이제곱 검정 종류
- 적합도 검정
- 관찰된 비율 값이 기대값과 같은지 조사하는 검정
- 어떤 모집단의 표본이 그 모집단을 대표하는지 하는 검정
- 동질성 검정
- 두 집단의 분포가 동일한지 검정
- 독립성 검정
- 두개 이상의 변수가 서로 독립인지 검정
- 적합도 검정
- 카이제곱검정으로 p값을 얻게되고, 유의한지 판단하면 됨(0.05 )
- 카이제곱 분포는 항상 오른쪽으로 치우치며, 자유도가 클수록 정규분포와 유사해짐
'기타 공부 > 금융' 카테고리의 다른 글
불황과 호황 예측(로짓 알고리즘) (0) | 2023.03.27 |
---|---|
카이제곱을 이용한 차이 검정 (성별,직업군별 소득차이 검정) (1) | 2023.03.25 |
차이 검정 (30대 1인 가구주 성별에 따른소득차이 검정) (0) | 2023.03.21 |
표본추출(가구평균소득에 대한 신뢰구간구하기) (0) | 2023.03.20 |
리먼브라더스 사태과, 근 3개년 주식 비교(주가수익률, 주가등락, 6개월 보유시 최대예상손실액) (0) | 2023.03.20 |
Comments