BLOG

인사이트/블로그

머신러닝으로 개발된 모델의 결과는 어떻게 나타날까?

루이
2022-03-07

지난 글들을 쭉 읽어보셨으면 다빈치랩스가 머신러닝 예측 모델의 개발을 자동화해주는 제품이라는 것을 알게 되셨을 겁니다. 물론 이 외에도 비즈니스 전략에 맞추어 의사결정을 최적화해주는 모듈도 있고, 이 모듈은 차후에 소개드리도록 하겠습니다. 

일단 본편에서는 다빈치랩스를 통해 모델을 개발했을 때 최종적인 산출물은 어떤 형태로 나오는 지에 대해 알아보겠습니다. SF영화에서 보던 것처럼 다빈치랩스에 데이터가 들어가기만 하면 어떤 사람이 범죄자인지, 어떤 회사가 망하게 될지, 이런 가치 판단들이 쏟아져 나오는 것일까요? 


우리가 예측하고 싶은 Target 변수에 값이 생성되었습니다

우리가 예측하고 싶은 Target 변수에 값이 생성되었습니다

 

결론부터 말씀드리자면 다빈치랩스가 사용자에게 최종적으로 전달하는 것은 신규 데이터에 대한 예측값(스코어)입니다. 다빈치랩스를 통한 머신러닝 예측모델 개발이 완료되고 나면 다빈치랩스 서비스 내에 해당 모델이 탑재되고, 사용자는 해당 모델에 새로이 쌓여 결과 기록이 존재하지 않는 데이터를 업로드해 해당 샘플들에 대한 예측 결과를 받아보는 구조라 생각하시면 됩니다. 

그리고 그 예측 결과는 예측 학습에 활용된 대상 컬럼의 유형에 따라 0과 1사이의 확률이거나, 여러 개의 클래스 중 하나의 클래스이거나, 연속된 수치 이렇게 세가지 유형으로 제공됩니다. 


다빈치랩스의 경우 타겟의 유형을 시스템이 자동으로 읽어와 적합한 모델 개발을 자동으로 진행하긴 하지만, 데이터를 구비하는 과정에서 사전에 지정한 분석 목표를 달성하기 위해 어떠한 형태로 데이터를 준비해야 하는지 반드시 이해가 필요하므로 "예측 대상의 유형이 결정하는 모델 유형"과 "각 유형별 최종 산출물"에 대해 알아보도록 합시다. 


1. 예측 대상의 유형에 따라 달라지는 산출물


머신러닝 지도학습은 크게 "연속성을 띄는 숫자를 예측하는 회귀모델"과 "항목을 예측하는 분류모델"로 나누어집니다. 

그리고 예측하고자 하는 대상이 어떤 형태인지에 따라 하위분류로 다시 나뉘어집니다. 각각의 유형은 아래와 같습니다. 


예측 대상의 유형에 따라 달라지는 산출물


1) 예측하고자 하는 대상(변수)이 0과 1로만 이루어져 있는가? 

→ 회귀형 이진 분류 모델 (이진 선형 모델)

2) 예측하고자 하는 대상(변수)이 연속하는 실수로 이루어져 있는가? 

→ 회귀 모델

3) 예측하고자 하는 대상(변수)이 두 개의 항목으로 분류되어 있는가? 

→ 이진 분류 모델

4) 예측하고자 하는 대상(변수)이 세 개 이상의 항목으로 이루어져 있는가? 

→ 다중 클래스 분류 모델


각각의 모델 유형에 따라 성능을 평가하는 지표, 적용 가능한 알고리즘 및 부가기능, 최종 산출물까지 많은 것이 달라지기 때문에 반드시 바로 알고 넘어가야 하는 내용이기도 하죠. 

지표, 그리고 알고리즘과 관련된 내용은 추후에 다루어보도록 하고, 일단은 이 유형을 제대로 이해해봅시다. 


2. 회귀형 이진 분류 모델(이진 선형 모델)

먼저, 예측하고자 하는 대상이 숫자 0과 1로 이루어진 변수들의 집합인 경우인 회귀형 이진분류 문제에 대해 알아보도록 하겠습니다. 원래 이진분류문제라는 것은 Yes 인지 No인지, A인지 B인지, 0인지 1인지를 가르는 문제이기 때문에 산출물도 두 가지 중 하나로 나타납니다. 그런데 이 문제를 회귀형으로 풀겠다는 의미는 무엇일까요? 바로 타겟이 1로 나타날 확률을 산출해주겠다는 의미가 됩니다. 예를 들어 고객이 상품을 구매할지 구매하지 않을지에 대한 여부를 가르는 문제를 분류문제라고 한다면, 고객이 상품을 구매할 확률이 얼마일지를 알아보는 것이 바로 회귀형 이진분류문제에 해당됩니다. 

회귀형 이진분류 문제 : 고객별로 상품을 구매할 확률은 얼마일까?


회귀형 이진분류 문제 : 고객별로 상품을 구매할 확률은 얼마일까?




그렇다면 자연스레 한 가지 질문이 따라오게 됩니다.

"왜 굳이 실수형으로 변환해서 확률을 전달받아야 할까?"

예를 들어 단순히 '유지'와 '이탈'의 클래스를 예측하는 분류모델에 비해 회귀형태의 분석을 진행하게 되면 예측이 구체성을 띌 수 있기 때문이라고 할 수 있습니다. 단순 분류모델을 사용할 경우 사용자가 최종적으로 획득할 수 있는 정보는 '유지'하거나 '이탈'한다는 표면적인 결과입니다. 그렇지만 '이탈'이라고 분류된 모든 샘플이 동일한 가능성을 내포할까요?


어떤 샘플은 0.99의 확률로 이탈이라고 판단되었을 수도 있고, 또 다른 샘플은 0.51의 애매한 확률로 이탈이라 판단되었을 수도 있습니다. 이러한 가능성을 정확하게 드러내주는 것이 회귀형 변환의 목적이라고 할 수 있죠. 즉 비즈니스에 중대한 영향을 미치는 지표를 예측함에 있어 보다 세심한 관찰이 필요한 경우, 확률 형태의 예측값을 제공받아 정확한 임계를 찾아내는 것이 좋습니다. 아래와 같이 말이죠.



고객 이탈 여부를 1과 0으로 판단하지 않고 확률값으로 관찰해보자

고객 이탈 여부를 1과 0으로 판단하지 않고 확률값으로 관찰해보자



3. 회귀 모델


회귀 모델은 연속하는 실수를 대상으로 예측을 진행하고 싶을 때 활용됩니다. 예를 들어 결제금액 기반 고객 가치 예측 모델을 개발한다고 가정해보죠. 이 때 우리가 모델 개발의 단계에서 에측의 대상(학습 재료)으로 삼을 수 있는 것은 "고객이 서비스 내에서 지출한 총 결제금액"이 되겠죠.


그리고 이렇게 개발된 모델에 신규 고객 데이터를 투입하게 되면, 해당 고객이 지출할 가능성이 있는 "예상 결제 금액"을 획득할 수 있죠. 이렇듯 실수 형태의 금액을 대상으로 모델 개발을 진행해 예측을 수행할 경우, 사용자는 학습시 활용했던 것과 동일한 연속 실수 형태의 예측값을 획득할 수 있습니다.


그리고 획득한 예측값을 토대로 매출 목표, 세일즈 정책 등을 고려하여 우량고객의 임계치를 설정하여 활용할 수 있겠습니다.


과거 데이터에 결제금액이 있다면, 앞으로 새로운 고객은 얼마나 결제할지 알아보자

과거 데이터에 결제금액이 있다면, 앞으로 새로운 고객은 얼마나 결제할지 알아보자




4. 이진 분류 모델


앞선 회귀형 이진 분류와 기본적인 메커니즘은 동일합니다. 범주형으로 구성된 타겟을 대상으로 하는 전통 이진 분류 문제의 경우. 사용자가 아닌 시스템이 타겟 평균에 근거해 임계를 지정하고 그 임계에 따라 분류된 클래스를 예측값으로 제공한다는 차이가 있습니다. (예를 들어 0.3 이상이면 B라고 판단)


사용자는 이진 분류 모델의 최종 산출물로 학습시에 사용된 것과 동일한 두 개의 클래스를 제공받습니다. 정확히 말하면 양자 택일의 방식으로 샘플 당 한 개의 클래스를 예측값으로 제공받는 것이죠.


따라서 보다 명시적으로 예측 결과를 해석하고 활용하고자 할 때 타겟을 0, 1 형태로 레이블링하지 않고 분류 문제로 모델 개발을 진행해보시는 것을 추천드립니다.



과거 고객의 이탈, 유지 여부를 근거로 새로운 고객이 이탈할지 여부를 예측해보자

과거 고객의 이탈, 유지 여부를 근거로 새로운 고객이 이탈할지 여부를 예측해보자



5. 다중 클래스 분류 모델


예측에 활용하고자 하는 대상 컬럼이 세 개 이상의 클래스(항목)로 이루어져 있을 때는 다중 클래스 분류 모델을 활용하게 됩니다. 대표적인 예로 상품 추천 모델을 들어볼 수 있겠네요.


서비스를 운영하며 사용자는 각각의 고객이 어떤 유형의 상품을 구매했는지에 대한 기록을 획득할 수 있습니다. 그리고 이를 대상으로 예측 모델을 개발하면 최종적으로 비슷한 속성의 고객이 유입되었을 때 어떤 유형의 상품에 관심을 보일지에 대한 예측 결과를 받아볼 수 있죠.


이처럼 최종적으로 획득하고자 하는 결과가 특정 집단, 특정 항목 등 대상 간의 구분이라면 다중 클래스 분류 모델을 활용할 수 있습니다.


과거에 고객이 구매했던 상품의 이력을 토대로 새로운 고객이 어떤 상품을 구입할지 예측해보자

과거에 고객이 구매했던 상품의 이력을 토대로 새로운 고객이 어떤 상품을 구입할지 예측해보자


지금까지 머신러닝 예측 모델의 결과는 어떻게 나타나는지 알아보았습니다. #회귀분석 이라는 용어 많이 들어보셨을 텐데 머신러닝은 반드시 회귀분석으로만 진행할 수 있는 게 아니라 분류 문제에 대해서도 접근이 가능고, 특히 이진 분류 문제의 경우 회귀 모델로 접근해볼 수 있다는 것도 알게 되었지요. 아일리스가 개발한 다빈치랩스는 이러한 모든 유형에 대해 손쉽게 접근이 가능하답니다.


다음에는 이러한 모델의 산출물이 실제로 비즈니스에 어떻게 적용되는지에 대해 알아보도록 하겠습니다.