Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 | 31 |
Tags
- 카카오
- RMES
- Tire
- PAPER
- n_sample
- Overleaf
- SMAPE
- Scienceplots
- 평가지표
- 파이썬을파이썬답게
- 논문작성
- 스택
- Alignments
- mMAPE
- iNT
- python 갯수세기
- knn
- 논문editor
- 코테
- KAKAO
- 논문
- TypeError
- Pycaret
- MAPE
- n_neighbors
- Mae
- 에러해결
- mes
- Python
- 프로그래머스
Archives
- Today
- Total
EunGyeongKim
[머신러닝] EDA(Exploratory Data Analysis) 탐색적 데이터 분석 본문
EDA란?
뜻 :
- 수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정.
- 데이터를 분석하기 전 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정.
- 시각화와 모델링을 할 수 있도록 데이터를 준비하는 과정(= 전처리)을 진행하며 데이터를 이해하는 작업.
- 결과를 표준화 하고 신속하게 통찰력을 얻기 위해 데이터를 준비하는것을 의미
- 데이터 시각화 및 준비와 관련이 있다.
* 이 과정에서 비 구조적 데이터를 구조적 데이터로 변환하고, 누락되거나 잘못된 데이터 요소를 정리
- EDA 과정에서 많은 유형의 플롯(plot)을 작성하고 이러한 플롯을 사용해 데이터모델에서 활용할 핵심기능과 관계를 식별
∴ 데이터 설명서(data description)를 읽고 데이터 파악하기
전처리가 필요한 변수 유형
1. 수치형으로 입력되어 있지만, 실제는 명목형인 변수
2. 명목형으로 입력되어 있지만 실제는 순서상의 의미를 가지는 변수
3. 합쳐서 하나로 만들 수 있는 변수
4. 쪼개서 나눌수 있는 변수
5. 결측값이 0인지 헷갈리는 관측치
reference
https://eda-ai-lab.tistory.com/13
https://medium.com/mighty-data-science-bootcamp/eda-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%84%A4%EB%AA%85%EC%84%9C%EC%97%90%EC%84%9C-%EC%8B%9C%EC%9E%91%ED%95%98%EA%B8%B0-230060b9fc17
'ML & DL' 카테고리의 다른 글
[ML] 배치 정규화(Batch Normalization) (0) | 2024.01.31 |
---|---|
지도학습 : 분류 (1) | 2023.03.03 |
[pycaret] Knn 오류 (Expected n_neighbors <= n_samples,) (0) | 2022.04.22 |
[ML] 예측방법과 종류 (0) | 2022.02.03 |
[ML] 예측 / 회귀 모델 성능 평가 지표 (0) | 2021.12.28 |
Comments