EunGyeongKim

백분위수, 사분위수 본문

ML & DL

백분위수, 사분위수

EunGyeongKim 2023. 3. 22. 10:16

백분위수

  • 데이터를 크기순으로 정렬한 후 100개의 균등한 영역으로 나누어 표시한 99개의 경계점 값
  • 히스토그램이 좌우 대칭이 아닌경우 주로 사용함
  • p백분위
    • 그 값보다 작은값들이 p%, 그값보다 큰 값이 (100-p)%가 되는 경계값
      • p99 → 모든 데이터의 99%가 p99보다 작다는 의미

사분위수

  • 백분위수 가운데 25, 50, 75번째 백분위수
  • → 1사분위수, 2사분위수, 3사분위수 라고 부름
  • 2사분위수는 중앙값
  • 사분위수 범위(Inter-Quartile Range, IRQ)
    • 3사분위수에서 1사분위수 사이의 범위 

 

상자그림(boxplot)

  • 사분위수 범위를 그래프로 나타낸것
    • 수염 (whisker)
      • 박수의 각 모서리 (Q1, Q3)으로부터 사분위수 범위(IRQ)의 1.5배 내에 있는 가장 멀리 떨어져 있는 점까지 이은 선
      • 수염 바깥쪽에 데이터가 존재한다면 이상치로 분류
  • 다섯숫자 요약(five number summary)
    • 데이터 표시
    • 최소값, 1사분위수, 2사분위수, 3사분위수, 최대값으로 표현
    • 1백분위수, 1사분위수, 2사분위수, 3사분위수, 99분위수로 표현하기도 함

 

'ML & DL' 카테고리의 다른 글

히스토그램, 부트스트래핑  (1) 2023.03.26
정규분포(normal distribution)  (0) 2023.03.22
지도학습 : 분류  (1) 2023.03.03
활성화 함수(Activation Function) 종류  (0) 2023.03.03
가우스 함수(Gaussian Function)  (0) 2023.02.23
Comments