EunGyeongKim

표본추출(가구평균소득에 대한 신뢰구간구하기) 본문

기타 공부/금융

표본추출(가구평균소득에 대한 신뢰구간구하기)

EunGyeongKim 2023. 3. 20. 18:07

모집단과 표본

  • 주제에 부함되는 모든 자료 조사 불가능 ▶ 표본을 추출하여 분석
  • 모집단(population) : 분석대상이 되는 전체데이터
    • 모수 (parameter): 모집단의 특성을 수치로 나타낸것
      • 알수 없음. 표본으로부터 구한 통계량을 이용하여 모수를 추정하거나 통계량이 모수를 어느정도 반영하고 있는지 검정(test)함.
  • 표본(sample) : 통계처리의 대상이 되는 부분집단
    • 통계량 (statistic) : 표본으로부터 계산할 수 있는 값, 사전적 의미의 확률변수
    • 통계치 : 통계량이 사후적으로 실현된 값, 표본에 따라 모든 통계치가 달라짐. 표본추출 중요
  • 추론(inference) : 표본에서 알아낸 정보를 바탕으로 모집단의 특성을 알아내는 과정
  • 편의 (bias) : 표본과 집단과의 체계적인 차이
    • 대표적인 편의
      • 표본추출편의(sample selection bias)
        • 표본이 모집단을 확률적으로 대표하지 못하는것.

확률오차와 표준오차

  • 확률오차 : 체계적인 편의(bias)가 없더라고 추정치와 모집단의 참값을 다르게 하는것
    • 추정치는 참값으로부터 확률 오차만큼 벗어남.
    • 표준 오차를 이용하여 측정함
  • 합의 표준오차 = 상자의 표준편차 * root(표본크기)
  • 비율의 표준오차 = 상자의 표준편차 / root(표본크기)

표본 추출과 확률오차

  • 표본 크기가 많아지면 표본비율의 표준오차가 적어짐

신뢰도와 신뢰구간

  • 표준오차 : SE, Standard Error
    • 표준오차 1% 의미
      • 정규분포곡선에서 52%±1SE(51% ~ 53%)에 해당되는 정규분포곡선의 아래 면적의 합은 68%
      • 정규분포곡선에서 52%±2SE(50% ~ 54%)에 해당되는 정규분포곡선의 아래 면적의 합은 95%
        • 이 경우 "표본비율로 모비율을 추정할 떄 모비율에 대한 약 95%의 신뢰도를 가진 신뢰구간(confidence interval)은 50% ~ 54% 이다'라고 함
        • (= 특정 후보에 대한 지지율이 50~54% 구간에 있을것으로 95%신뢰한다 라는 의미와 같음)
      • 신뢰도는 '대략'의 의미
        • 표준오차를 구할 때 모비율을 사용한 것이 아니라 표본비율을 사용하였기 때문에
        • 표본비율의 확률 히스토그램 대신에 정규분포곡선을 이용하였기 떄문에 대략이라고 표현함

신뢰구간의 해석

  • 95% 신뢰구간 = 표본을 100번 추출할 경우 모 비율이 우리가 추정한 신뢰구간안에 95번 들어가 있음
  • 신뢰구간을 쓸때 정규분포곡선의 성질을 이용하는 이유
    • 중심극한정리 때문에
      • 중심극한정리를 적용하면 개별 관측치의 히스토그램이 정규분포곡선과 다르더라도 표본평균의 확률 히스토그램은 표본 크기가 커지면 그 모양이 정규분포 곡선과 유사해짐.

표본평균의 기댓값과 표준 오차

  • 모평균과 표본평균의 차이 : 표본평균을 믿을수 있는지에 대한 지표
  • 확률오차는 표준오차 방식으로 계산됨
    • 결국 표준오차를 이용하여 표본평균이 얼마나 믿을 수 있는지를 판단해야 함

 

 

 

Comments