WIKI


데이터 전처리(Data preprocessing)

blaire

데이터 전처리(data preprocessing )가 필요한 이유는 무엇일까. 우수한 예측 분석 결과는 잘 정돈된 데이터에서 출발한다. 즉, 정교한 예측 분석 모델을 얻기 위해서는 수집된 데이터에 누락된 부분이나, 오차, 또는 데이터 처리에 있어서 가공할 부분은 없는지를 살펴보아야 한다.

데이터 전처리 종류?

데이터 전처리의 종류에는 데이터 클리닝(cleaning),  데이터 통합(integration) , 데이터 변환(transformation), 데이터 축소(reduction), 데이터 이산화(discretization) 등이 존재한다. 데이터의 결측치 및 이상치를 확인하거나 제거하고 불일치되는 부분을 일관성 있는 데이터의 형태로 전환 하기도 하는 이 전 과정을 데이터의 전처리라고 일컫는다.

DAVinCI LABS에서의 데이터 전처리

 DAVinCI LABS에서의 데이터 전처리의 첫 단계는 사용할 인풋 데이터(input data)를 선택하여 분석에 알맞는 형태로 가공하는 일이다. 여기서 인풋 데이터(input data) 란 과거(historical) 데이터로 구성되어 있는 데이터를 일컫는 말이다. 인풋 데이터가 준비되었다면, 두번째 단계인 데이터 분할 작업에 착수한다. 해당 단계는 예측 모델을 정제하여 정확도를 향상시키며 모델의 안정성과 성능을 검증하는 중요한 단계라고 할 수 있다. 분할 단계를 지나 세번째 단계인 데이터 변환(transformation) 작업을 실시한다. 데이터 변환 단계는 인풋 데이터를 모델링에 적합한 형태로 변환 시키는 단계라고 볼 수 있다. 수치적, 계층별로 정규화시키는 작업으로써 빅데이터를 분석할 때 데이터의 범위를 일치시키는 필수적인 과정이다. 이 과정들이 최적화된 모델을 만들기 위한 전처리 단계라고 할 수 있다.