본문 바로가기
Artificial Intelligence

[ADP, ADsP] EDA의 4가지 주제: 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성

by sohyunwriter 2020. 11. 19.

EDA(Exploratory Data Analysis, EDA)의 4가지 주제

 

1. 저항성의 강조: 자료 변동에 민감하지 않은가? 자료변동에 민감하지 않음=저항성이 있음

e.g. 중앙값은 저항성이 있지만 평균은 저항값이 있다. 

14 21 18 20 15 -> 14 21 18 20 20000

좌에서 우로 갔을 때 평균은 확 늘어나게 돼 저항성이 없다.

 

2. 잔차 계산: 관찬 값들이 주경향으로부터 얼마나 벗어났나?

 

3. 자료변수의 재표현: 원래 변수를 적당한 척도로 바꾸면?

e.g. 로그 변환을 통해 데이터가 정규분포임을 쉽게 파악하기

 

4. 그래프를 통한 현시성: 그래프로 시각화함으로써 구조를 효율적으로 파악하자

e.g. histogram, box plot, scatter plot 등

 

 

 

 

 

 

 

https://blog.naver.com/PostView.nhn?blogId=tjgml1343&logNo=221962612551&from=search&redirect=Log&widgetTypeCall=true&directAccess=false