EDA(Exploratory Data Analysis, EDA)의 4가지 주제
1. 저항성의 강조: 자료 변동에 민감하지 않은가? 자료변동에 민감하지 않음=저항성이 있음
e.g. 중앙값은 저항성이 있지만 평균은 저항값이 있다.
14 21 18 20 15 -> 14 21 18 20 20000
좌에서 우로 갔을 때 평균은 확 늘어나게 돼 저항성이 없다.
2. 잔차 계산: 관찬 값들이 주경향으로부터 얼마나 벗어났나?
3. 자료변수의 재표현: 원래 변수를 적당한 척도로 바꾸면?
e.g. 로그 변환을 통해 데이터가 정규분포임을 쉽게 파악하기
4. 그래프를 통한 현시성: 그래프로 시각화함으로써 구조를 효율적으로 파악하자
e.g. histogram, box plot, scatter plot 등
'Artificial Intelligence' 카테고리의 다른 글
분석환경 requirements (0) | 2021.01.18 |
---|---|
Optimizer 정리 (0) | 2021.01.13 |
conda 터미널 명령어 (0) | 2021.01.12 |
numpy의 dot / matmul 차이 (0) | 2021.01.12 |
[ADP, ADsP] 데이터 처리 순서: Legacy -> staging -> ODS -> DW -> DM -> R, SAS, PYTHON (0) | 2020.11.19 |