WIKI


데이터 세트(Data set)

blaire

데이터 세트란 데이터들의 집합체 즉, 자료들의 모음이다. 사용자가 데이터 분석에 사용할 데이터를 데이터 세트하는 과정은 통상적으로 여러 형태로 준비되며 이 다양한 데이터를 조합하는 작업은 시간과 노력을 필요로 한다. DAVinCI LABS를 사용하려는 사용자는 데이터 머징(data merging) 작업을 통해 한 파일로 가공이 되어있는 데이터 세트를 사용해야 하며 보통 한 데이터 세트에는 수천 줄 또는 그 이상의 데이터를 포함하고 있다. 각 줄의 데이터는 한 주체를 대표하는 데이터일 수 있으며 예를 들어 개별 고객, 특정 거래내역, 또는 기업정보가 그것이다. 또한 데이터 세트 내 필드(variable)들은 해당 주체의 통계정보, 매출 정보, 또는 재무정보 등의 해당 주체를 더욱 더 이해할 수 있는 자세한 정보를 포함하고 있다.

 

훈련 세트(Train set)와 테스트 세트(Test set)란?

훈련 세트(train set)는 기계에게 a를 넣으면 b가 나온다는 공식을 알려주는개념서 이다. 이 데이터는 학습 전에 학습할 분량과 그것을 시험해 볼 분량을 미리 나누어 분배 할 필요가 있다. 데이터 전체를 학습 시키게 된다면, 전부 학습해버려서 시험 분량은 사라지게 되기 때문이다. 즉, 데이터의 80%는 훈련 세트를 통해 학습, 나머지 20%는 테스트 세트로 남겨 놓아야 한다.


검증 세트(Validation set)란?

검증 세트(validation set) 란 위에서 언급한 훈련 세트(train set)와 테스트 세트(test set) 사이의 괴리감을 보완해주는 성능이다. 학습 보다는 검증하는 역할이며,  테스터 데이터와는 중복 되면 안되기 때문에 학습 대기중인 데이터 내에서 검증 분량을 따로 확보해야 한다. 학습하는 양은 감소하지만 검증 세트를 통해 더 정교해진 모델을 얻을 수 있고 이를 데이터 분할 또는 데이터 스플릿(data split)이라고 일컫는다.

검증 방법에는 K-겹 교차검증(K-fold Cross Validation)이 있다. 검증하는 데이터를 K개로 쪼개어, 나누어진 데이터 중 한 폴드(fold)에는 테스트를 실시하고 나머지 폴드는 학습을 시키는 방법이다. 이 방법은 데이터 추출의 균일성은 물론, 보다 효과적으로 검증할 수 있도록 도와준다.


*아일리스가 제공하는 DAVinCI LABS에서는 자동으로 개발 데이터와 검증 데이터를 8:2의 비율로 나누어주는 기능을 탑제 하고 있으며, K-fold 교차검증 또한 실시



[출처] 아주 쉽게 풀어쓴 Train, Validation, Test|작성자 다빈치랩스