Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- python 갯수세기
- MAPE
- 파이썬을파이썬답게
- knn
- Python
- TypeError
- n_sample
- Pycaret
- mMAPE
- 논문editor
- n_neighbors
- 논문작성
- Tire
- 논문
- 카카오
- iNT
- KAKAO
- 코테
- 스택
- 프로그래머스
- Mae
- 평가지표
- SMAPE
- PAPER
- RMES
- Overleaf
- 에러해결
- Scienceplots
- Alignments
- mes
Archives
- Today
- Total
EunGyeongKim
[머신러닝] EDA(Exploratory Data Analysis) 탐색적 데이터 분석 본문
EDA란?
뜻 :
- 수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정.
- 데이터를 분석하기 전 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정.
- 시각화와 모델링을 할 수 있도록 데이터를 준비하는 과정(= 전처리)을 진행하며 데이터를 이해하는 작업.
- 결과를 표준화 하고 신속하게 통찰력을 얻기 위해 데이터를 준비하는것을 의미
- 데이터 시각화 및 준비와 관련이 있다.
* 이 과정에서 비 구조적 데이터를 구조적 데이터로 변환하고, 누락되거나 잘못된 데이터 요소를 정리
- EDA 과정에서 많은 유형의 플롯(plot)을 작성하고 이러한 플롯을 사용해 데이터모델에서 활용할 핵심기능과 관계를 식별
∴ 데이터 설명서(data description)를 읽고 데이터 파악하기
전처리가 필요한 변수 유형
1. 수치형으로 입력되어 있지만, 실제는 명목형인 변수
2. 명목형으로 입력되어 있지만 실제는 순서상의 의미를 가지는 변수
3. 합쳐서 하나로 만들 수 있는 변수
4. 쪼개서 나눌수 있는 변수
5. 결측값이 0인지 헷갈리는 관측치
reference
https://eda-ai-lab.tistory.com/13
https://medium.com/mighty-data-science-bootcamp/eda-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%84%A4%EB%AA%85%EC%84%9C%EC%97%90%EC%84%9C-%EC%8B%9C%EC%9E%91%ED%95%98%EA%B8%B0-230060b9fc17
'ML & DL' 카테고리의 다른 글
[deep learning] early stopping (0) | 2022.02.06 |
---|---|
[통계] 기초통계 (0) | 2022.02.05 |
[ML] 예측방법과 종류 (0) | 2022.02.03 |
[통계] 상관분석(Correlation Analysis) (0) | 2022.01.15 |
[ML] 예측 / 회귀 모델 성능 평가 지표 (0) | 2021.12.28 |
Comments