본문 바로가기
Artificial Intelligence

train data / validation data / test data 차이

by sohyunwriter 2021. 1. 19.

train data / validation data / test data 차이

 

- train data(=training set) : 학습을 위한 데이터, label O, feature O

 

- test data(=test set) : 예측을 위한 데이터, label X, feature O

 

- validation data(=validation set) : 학습 후 검증을 위한 데이터, label O, feature O, train data의 일부를 활용하며 절대 학습할 때 train에 넣으면 안됨

 

 

 


-관련 질문

 

Q. train, test, validation data의 차이?

 

train data는 모델의 학습을 위한 데이터이고,

validation data는 학습 후 검증을 위한 데이터,

test data는 예측을 위한 데이터입니다. 

 

train data는 feature, label이 모두 있는 데이터이고, 

test data는 feature만 있는 상태의 데이터로 label을 예측해야 합니다.

 

train data에 overfitting돼 test data에 대한 error가 높아지지 않도록, 

train data의 일부를 따로 떼어 모델 학습 후 평가를 위해 validation data로 이용합니다.

 

Q. validation 하는 이유?

 

train data 전체를 사용하고 따로 validation을 하지 않는 경우 

train data에 과적합돼 train error는 낮지만 

test data에서는 error가 높은 경우가 발생합니다.

이러한 overfitting을 피하기 위해 validation을 하는데 

train data를 80:20 등으로 떼어두어 80%는 모델이 학습하는데 사용하고 

20%는 학습 후 모델을 검증하기 위해 이용합니다.

'Artificial Intelligence' 카테고리의 다른 글

영어 변수명 및 약자  (0) 2021.01.25
One Hot Encoding의 의미와 필요성  (0) 2021.01.19
분석환경 requirements  (0) 2021.01.18
Optimizer 정리  (0) 2021.01.13
conda 터미널 명령어  (0) 2021.01.12