BLOG

인사이트/블로그

금융분야 머신러닝 대표 활용 사례와 KPI 모델링 방법

루이
2022-05-02

핀테크라는 개념과 함께 금융업에서의 인공지능 기술 활용이 화두가 된 지 이미 상당한 시간이 흘렀습니다. 핀테크 열풍 초기에는 기업이 머신러닝을 도입하여 어떤 비즈니스 성과를 낼 수 있을지에 초점을 맞췄다고 한다면, 현재에는 더욱 폭발적으로 증가한 금융데이터와 고도화된 머신러닝 기술 덕택에 그 성과를 극대화할 수 있는 전략이 연구되고 있죠. 더욱이 치열해진 금융 시장에서 경쟁 우위를 선점하기 위한 기술력 싸움은 여전히 지속되고 있습니다.

흔히 잘 알려져 있듯이 금융권에서의 머신러닝 활용은 마케팅 및 세일즈, 투자 관리, 리스크 관리, 타겟 고객 세그먼팅, 자동화 서비스, 사기 탐지, 신용 심사 등 여러가지 업무에 걸쳐져 있습니다. ‘머신러닝 금융 활용 사례’라는 키워드로 자료를 찾아보시면 쉽게 발견할 수 있는 사례들이죠.

그러나 이 모든 업무에 적용되는 머신러닝 기술은 동일하지 않습니다. 데이터의 특징, 예측 타겟의 속성, 비즈니스 KPI에 따라서 적용되는 머신러닝 기술과 모델 개발 프로세스가 달라집니다. 따라서 금융업에 종사하시면서 머신러닝에 관심을 기울이시는 분들에게는, 이 글을 통해 어떤 방법으로 접근해야 할 지 도움을 드리도록 하겠습니다.


“어떤 고객을 승인하고, 어떤 고객을 거절할 것인가? 심사를 고도화하라!”


보험심사나 대출심사와 같이 상품을 구매, 가입, 대출하려는 고객을 대상으로 진행하는 심사 업무는 내부적으로 축적된 경험과 룰시스템의 운영으로 이루어집니다. 이러한 심사는 승인된 고객이 승인될 만했는지, 거절된 고객이 거절될 만했는지 예측 평가하는 업무인 셈이죠. 머신러닝에서도 예측 모델링이라는 표현이 있습니다. 마땅히 승인하고 거절해야 하는 고객을 데이터 기반으로 예측해주는 것입니다. 심사 업무에서 머신러닝 적용이 큰 효과를 거둘 수 있는 이유는, 수많은 고객을 관리하는 금융업에서 예측력이 1%만 상승하더라도 손해액 절감에 큰 효과가 있기 때문입니다.


● 언더라이팅 예측 모델


아일리스는 총 3년치 천만건의 데이터를 활용하여 보험 고객사와 함께 언더라이팅 예측 모델을 개발한 경험이 있습니다. 보험 상품에 따라 기존 고객 데이터의 사고율과 사고심도를 계산하여 데이터의 변수로 지정하였고, 인수 여부 예측 모델의 성능을 높이기 위해 사고 당시의 환경(날씨, 온도, 습도 등)과 사고 차량의 종류도 고려하였습니다. 그 결과 기존 심사 시스템과는 다른 모델이 개발되었습니다.


예측 모델의 고도화를 위해 사고 당시의 환경과 차량 스펙을 활용

<예측 모델의 고도화를 위해 사고 당시의 환경과 차량 스펙을 활용>


아래 그림은 새롭게 개발된 모델의 특징을 간단히 묘사해본 것입니다. 빨간 원은 기존에 승인되었던 고객들이고 회색 원은 기존에 거절되었던 고객들입니다. 그러나 아일리스의 예측 모델은 빨간색 사각형 내부에 있는 고객들을 인수하라는 결론을 내렸습니다. 그리고 회색 사각형 내부에 있는 고객들은 인수를 거부하라고 했죠. 이처럼 기존 시스템과는 다른 예측을 하게 된 것입니다.


머신러닝 예측 모델의 언더라이팅 결과

<머신러닝 예측 모델의 언더라이팅 결과>


머신러닝 모델이 인수를 승인하거나 거절하는 판단은 어떤 예측에서 비롯되었을까요? 앞서 말씀드렸듯이 언더라이팅 예측 모델에서는 보험 상품 인수 여부를 예측 타겟으로 지정하였습니다. 이 때 인수 여부에 중요하게 영향을 미치는 변수에는 사고율과 사고심도가 있는데, 사고율과 사고심도가 높다고 해서 무조건 인수가 거부되는 것이 아니라, 이 두가지 예측 타겟을 토대로 예상되는 손해액과 보험 가입 시 이익금이 고려되어 최종적으로 보험 인수가 결정됩니다. 보험 인수 기준에 따른 리스크와 이익금은 아래 그래프를 통해 더 쉽게 이해할 수 있죠.  


보험 인수 리스크에 따른 누적 이익

<보험 인수 리스크에 따른 누적 이익>


만약 리스크를 전혀 안고 싶지 않다면 모든 고객의 인수를 거절하면 될 일입니다. 그러나 이 경우 이익금이 전혀 발생하지 않겠죠. 어느정도 고객의 인수를 늘려가면 그에 따른 보험금 지급이라는 리스크는 상승하지만 모든 고객이 사고를 내진 않기 때문에 수익이 발생합니다. 그러다가 인수 고객수가 어느 범위를 넘어서게 되면 이익은 정점을 찍고 다시 감소하기 시작합니다. 손해액을 막대하게 발생시키는 고객까지 인수를 해버렸기 때문입니다. 따라서 언더라이팅 예측 모델은 단순히 고객별 사고율과 사고심도를 계산하는 데에서 끝나는 게 아니라, 이익금을 최대한 많이 발생시키기 위해서 어느정도 선에서 인수를 해야 할지 거절해야 할지 기준을 찾아줄 수 있어야 합니다. 즉 단순히 사고를 낼 것이다, 보험을 해지할 것이다라는 예측에서 끝내지 않고 최대 이익이라는 KPI 달성을 기준으로 모델이 개발되어야 한다는 뜻입니다. 이러한 모델 개발 방법론을 KPI-Driven Modeling이라고 합니다.


위 그림에서 볼 수 있듯이 기존 모델 대비 아일리스에서 개발한 모델은 더 높은 이익을 확보할 수 있는 기준을 제시할 수 있었으며 이를 통해 80억원의 손해액 절감 효과가 있었습니다. 이처럼 모델의 예측력이 1%만 상승하여도 기업 입장에서는 수십억원의 이익 효과가 있다고 할 수 있죠.


● CSS(Credit Scoring System) 부도율 예측 모델


이번에는 아일리스가 은행 고객사와 함께 진행하였던 신용평가 모델 개발 프로젝트에 대해 소개드리겠습니다. 신용평가 업무에서 머신러닝을 활용할 경우, 특히 중신용 고객을 대상으로 큰 효과를 볼 수 있습니다. 왜냐하면 신용도가 극도로 높거나 낮은 고객들은 굳이 머신러닝을 활용하지 않더라도 평가하기가 쉽기 때문입니다. 기존 신용평가 시스템에서도 고신용자와 저신용자는 잘 가려냅니다. 그 특징이 명확하니까요. 그러나 신용등급이 4~6등급 정도의 중신용 고객들은 그 특징이 명확하지 않을 뿐더러 대출 상환 가능성도 심사 기준에 애매하게 걸쳐 있어 판단이 어렵습니다. 바로 여기에서 머신러닝 모델의 장점이 드러납니다.


기존 모델 대비 머신러닝 모델의 추가 승인

<기존 모델 대비 머신러닝 모델의 추가 승인>


머신러닝 예측 모델은 기존 대출, 연체 이력, 카드, 잔금, 거래 이력 등의 재무정보와 더불어 고객의 비재무 개인 정보까지 함께 고려하여 대출 승인 여부를 판단합니다. 이를 통해 위 그림과 같이 기존 모델에서는 발견하지 못했던 추가 대출 잠재 고객을 발굴할 수 있는 것이죠. 실제로 아일리스와 프로젝트를 진행했던 고객사는 대출 상품의 승인율은 40% 이상 높이고 부도율을 50% 이하로 낮추었습니다.


CSS 예측 모델에서도 KPI를 중심으로 한 모델 개발 방법론은 매우 중요합니다. 단순히 ‘대출 상환 여부’를 예측 타겟으로 지정한 모델에서는 대출 상환 가능성이 몇퍼센트 이상이어야 승인을 할 것인지 판단하기가 불명확합니다. 대출 상환 가능성이 50%이상이기만 하면 무조건 승인을 하는 게 맞을까요? 부족하다면, 60%이어야 할까요? 기업의 최종 목표는 대출 상환 가능성이나 부도율을 정확하게 예측하는 게 아닙니다. 그보다는 대출을 통해 얻을 수 있는 이익을 최대화하는 목표가 중요하죠. 즉 기업에서 중요한 타겟 변수는 대출 승인을 통해 얻을 수 있는 이익금과 미상환 또는 연체 시 발생하는 손해액입니다. 따라서 대출 상환 가능성과 더불어 대출 금액, 연체 기간, 추가 대출 가능성 등을 고려하여 고객 별로 승인 시 예상되는 이익이라는 KPI가 기준이 되어야 하는 것이죠.


● KPI-Driven Modeling

두 가지 예시를 통해 KPI-Driven Modeling이 왜 중요한 지에 대해 설명을 드렸습니다. 일반적인 머신러닝은 예측 모형의 성능을 전통적인 통계 지표로 평가합니다. 예를 들어 회귀모형의 경우 예측량과 실제량의 절대 오차 정도를 평균해서 점수를 부여할 뿐이죠. 그러나 이러한 통계지표는 비즈니스 성과와 관련성이 적을 수밖에 없습니다. 예측 정확도보다 더 중요한 KPI가 있기 때문이죠. 이는 비단 최대 이익을 중시하는 금융분야 뿐만 아니라, 수요예측에 있어서 초과품과 결품량의 정도에 따라 손해액이 달라지는 유통분야에서도 동일하게 적용됩니다. 즉 초과품보다 결품을 줄이는 방향으로 KPI를 잡고 모델을 개발하게 되는 것입니다.




이번 1편에서는 머신러닝을 활용한 금융분야 심사 고도화 업무에 대해 다루어봤습니다. 두번째 편에서는 마케팅과 CRM 업무에서 머신러닝을 활용하는 방법에 대해 다룰 예정입니다.