EunGyeongKim

[머신러닝] EDA(Exploratory Data Analysis) 탐색적 데이터 분석 본문

ML & DL

[머신러닝] EDA(Exploratory Data Analysis) 탐색적 데이터 분석

EunGyeongKim 2022. 2. 4. 22:23

 


EDA란?

뜻 : 

 - 수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정. 

 - 데이터를 분석하기 전 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정.

 - 시각화와 모델링을 할 수 있도록 데이터를 준비하는 과정(= 전처리)을 진행하며 데이터를 이해하는 작업.

 - 결과를 표준화 하고 신속하게 통찰력을 얻기 위해 데이터를 준비하는것을 의미

 - 데이터 시각화 및 준비와 관련이 있다.

    * 이 과정에서 비 구조적 데이터를 구조적 데이터로 변환하고, 누락되거나 잘못된 데이터 요소를 정리

 - EDA 과정에서 많은 유형의 플롯(plot)을 작성하고 이러한 플롯을 사용해 데이터모델에서 활용할 핵심기능과 관계를 식별

∴ 데이터 설명서(data description)를 읽고 데이터 파악하기

 


전처리가 필요한 변수 유형

1. 수치형으로 입력되어 있지만, 실제는 명목형인 변수

2. 명목형으로 입력되어 있지만 실제는 순서상의 의미를 가지는 변수

3. 합쳐서 하나로 만들 수 있는 변수

4. 쪼개서 나눌수 있는 변수

5. 결측값이 0인지 헷갈리는 관측치

 

 

reference

https://eda-ai-lab.tistory.com/13

https://medium.com/mighty-data-science-bootcamp/eda-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%84%A4%EB%AA%85%EC%84%9C%EC%97%90%EC%84%9C-%EC%8B%9C%EC%9E%91%ED%95%98%EA%B8%B0-230060b9fc17

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Comments