BLOG

인사이트/블로그

머신러닝 예측모델, 이렇게까지 쓸 수 있다고?

루이
2022-03-10

그래서 머신러닝은 어디에 쓰이는데요?


인공지능(AI) 산업과 친숙하신 분들이 아니라면, AI 머신러닝 솔루션을 논할 때 당연히 금시초문이라는 반응을 보이실 겁니다. '다빈치랩스'에서 사용되는 알고리즘과는 다르지만, 인공지능이 요즘 뜨거운 감자로 주목받는 이유 중 하나는 AI 모델들의 등장이겠죠.

신한라이프 광고모델로 혜성처럼 등장해 많은 사람들의 궁금증을 불러일으킨 모델 '로지'가 바로 그 예입니다.


 

센세이셔널한 관심을 불러일으킨 AI 광고모델 '로지'


그러나 인공지능의 한 부분집합으로서 머신러닝은 이렇게 '전문적인 부분'이 아니더라도 우리가 생각지도 못한 일상에까지 스며들어 활용됩니다.

이번 포스트에서는 머신러닝의 다양한 활용예시를 살펴보겠습니다.


1. 넷플릭스: 추천 알고리즘뿐만 아니라 작품아트 선정에도 머신러닝이?


코로나19로 너도나도 할 것 없이 실내에서 보내는 시간이 늘어나면서 폭풍적으로 성장한 OTT 시장. '구글링'이라는 고유의 표현이 동사로 통용되기 시작한 것처럼, 영미권에서는 'NETFLIX and Chill'(넷플릭스를 보며 쉬다)이라는 문구가 모두가 공감하는 표현이 될 정도로 넷플릭스는 전세계적으로 사랑받고 있습니다. 우리나라에서도 '킹덤' 시리즈, '승리호' 등등 자체 국내 컨텐츠를 넷플릭스에 전담 수출할 정도로 시장성이 대단한데요, 우리가 늘 스크롤하며 훑어보는 넷플릭스 '추천 알고리즘'에 바로 머신러닝 기술이 활용됩니다.


머신러닝 영화 추천

여러분 취향에 맞는 작품 목록을 만들어 드려요


넷플릭스 홈페이지를 들어가면 기본바탕에 사용자를 위한 추천목록이 뜨는데요, 그동안 시청자가 즐겨봤던 작품들을 특징지어 분야 및 공통정보를 저장하고, 그것을 바탕으로 비슷한 작품들을 머신러닝 알고리즘을 통해 추려냅니다. 그렇게 나만의 맞춤형 추천작품 리스트가 완성되는 것이죠. 이렇게 추천 목록에 머신러닝이 활용되는 것은 이미 많은 사람들이 알고 있는 사실입니다.


그렇지만 넷플릭스에 뜨는 작품아트가 사용자마다 다르게 뜬다는 걸 알고 계셨나요? 이 과정에도 머신러닝이 활용됩니다.

머신러닝 영화 장르 추천


그동안 사용자가 많이 본 작품이 무엇인지에 따라서 추천하는 아트도 달라집니다



만약 사용자가 로맨스를 좋아한다면 그 사람에게는 커플 배경이 담긴 작품아트가, 밝고 유쾌한 장르를 선호하는 것으로 분석된다면 발랄한 느낌을 담은 작품아트가 뜹니다. 사용자의 이용기록을 분석해 이렇게 작품아트 하나에도 사용자의 취향이 반영되어 결정이 된답니다.


2. PepsiCo의 치토스: 제조 과정에서 과자의 바삭함을 일정하게 유지하기 위해 기계학습을 적용


치토스 과자 머신러닝 활용 사례 

세계적으로 사랑받는 펩시코의 '치토스'


식품제조회사 펩시코(PepsiCo)는 인기 과자 치토스의 바삭함을 최상으로 생산 및 유지하기 위해 머신러닝 학습법 중 하나에 해당하는 강화학습을 도입합니다. 강화학습을 통해 치토스의 크기, 부피, 첨가물 분포 등이 고른 상태로 생산되게끔 검토를 하는데요, 이런 작업을 사람이 한다면 수 일이 걸릴 일을 인공지능 솔루션은 근 30초 안에 해낸다고 합니다. 수많은 데이터 축적을 통해 가장 훌륭한 '바삭함'을 추구하는 데에도 머신러닝이 사용된다는 점, 신선하지요? 그 밖에도 특정 지역의 인구학적 통계자료를 활용해 상점별로 인기 많은 제품은 재고를 더 구비하는 등, 수요예측을 통해 시장 규모를 확대하는 상점 맞춤 전략을 짤 때도 머신러닝을 활용했답니다.


머신러닝 강화학습 과자 활용 사례 치토스의 '완벽한 바삭함'을 구현하기 위해 머신러닝 사용


3. Wikipedia 2달간의 웹트래픽 예측: 향후 65일치의 웹트래픽을 미리 그려보는 머신러닝 모델


위키피디아는 간단한 검색을 할 때도, 구체적인 과제를 수행할 때도 누구나 초반에 꼭 거쳐가는 검색엔진입니다. 수억명에 해당하는 누적 사용자들의 데이터가 얼마나 많을지, 또 그것을 활용하면 얼마나 큰 영향력을 발휘하게 될지는 가늠하기 힘들 정도입니다. 한 머신러닝 회사는 위키피디아를 통해서 미래 두 달간의 웹트래픽을 예측하는 프로젝트를 추진했습니다. 바로 시계열분석이라는 머신러닝 학습법을 통해서인데요, 시간순서대로 정리된 약 2년치의 데이터를 통해 검색 기록을 기계에 학습시킨 후 미래의 예측 사용량을 사이트별로 산출해낼 수 있었습니다.


사이트별 접속량 머신러닝 활용무엇이든 여쭤보세요 위키피디아가 답해드립니다: 사이트별 접속량이 어떻게 되는지도 머신러닝을 통해서 알 수 있어요


4. '습관적 생체 인증': 머신러닝으로 유저별 사용패턴 분석을


습관적 생체 인증이라는 표현 들어보셨나요? 사람마다 타자속도, 마우스 클릭 세기, 스와이프 속도와 방향이 미묘하게 다른데요, 이렇게 사람마다 동작의 패턴이 다른 것을 학습해 인증에 활용하는 것을 습관적 생체 인증이라고 부릅니다. 이러한 패턴을 인증하는 것은 물리적 암호 입력만을 맞추는 것을 넘어 한 층 강화된 보안의 기회를 제공합니다. 사용자의 생체 습관과 기계가 기억하는 기존 생체 패턴을 비교해 이상한 경우가 있다면 추려내는 기술이지요. 여기에 스와이프 거리 및 속도 등의 수많은 패턴을 데이터로 인지해 학습한 후 새로 입력된 행동들이 기존 사용자의 행동인지 비교하는 기계학습이 사용됩니다.



누구나 고유한 생체 습관이 있고 기계는 그것을 기억합니다

사진 출처 https://techcrunch.com/2018/03/12/biocatch-closes-30m-round-for-its-behavioral-biometrics-tech-for-banks-and-other-transaction-businesses/



5. Fox Sports Australia: 크리켓 경기 중 5분 후를 미리 예측해드려요


야구도 아닌, 발야구도 아닌 '크리켓'이라는 스포츠 종목을 아시나요? 호주의 Fox Sports 사는 이 크리켓 경기의 타자가 아웃되는 경우를 5분 전에 예측하는 야심찬 프로젝트를 실시했습니다. 1년치 크리켓 경기 정보를 통해 타자가 공을 치기 몇 초 전에 관여하는 83여가지의 요인을 학습합니다. 과거의 경험을 말미암아 미래를 예측하는 기계학습을 통해 타자가 아웃될 확률을 실제 상황 5분 전에 예측하기! 이 정도면 로또 번호 예측 빼고 다 기계로 예측 가능하다고 봐도 무방한 것 아닐까요?


머신러닝 야구 스포츠경기 활용 사례공이 위켓을 쓰러뜨리면 타자가 아웃되는 '크리켓'. 머신러닝으로 타자 아웃을 미리 예상한다니!


6. 의료: 머신러닝 알고리즘을 통해 위험상황을 미리 감지


모든 치명적인 질병은 면밀하고 세심한 관찰이 필요합니다. 기계를 통해 사람을 살린다는 개념은 이 분야에서만큼은 마음껏 쓰일 수 있을 것 같네요. 의료계에서 당뇨, 심질환 및 여러 치명 질환을 신체의 이상징후를 통해 잡아내는 방식에도 머신러닝이 쓰일 수 있습니다. 센서를 통한 지속적인 모니터링으로 징후가 심해지기 전 미리 의료진에게 경고를 보냅니다. 데이터로 미루어보았을 때, 특정 징후가 일정 시간 지속된다면 차후에 위독할 확률이 높다고 인지해 신호를 보내는 것이죠. 낮은 확률로 의료진이 미처 보지 못하고 지나치더라도 이런 기술이 정교해지면 기계가 먼저 질병 관련 알림을 보내는 경우가 생길 것입니다.


그림 출처 https://www.foreseemed.com/artificial-intelligence-in-healthcare


7.Sunday Toz, 애니팡 속 유료결제자 추리를 머신러닝으로!


게임회사가 가장 소득을 많이 벌어들이는 경로는 게임 내 광고 및 유료 결제입니다. 따라서 인앱 유료 결제를 하는 고객들을 그렇지 않는 고객들로부터 분리해내는 작업이 꽤나 중요한데요, 머신러닝이 사용되는 부분이 바로 '구매 전환 가능성'을 예측할 때입니다. 애니팡으로 유명세에 오른 기업 '썬데이토즈'는 3년간의 370억 건 데이터 수집 및 학습을 통해 유료 결제를 하는 고객들을 예측하는 프로젝트를 실행했습니다. 결제할 가능성이 보이는 '잠재적 유료결제 고객'들에게는 특정 광고를 표시하고, 무료 기능만을 누리는 고객들에게는 광고 노출을 조절하는 등 광고 노출을 세분화하는 방식을 도입했습니다. 기존 매출 구조를 바꾸지 않으면서 광고 플랫폼으로서의 성과를 도출하는 것이 목표였어요.


머신러닝 애니팡 게임 활용 사례

애니팡 유저들을 유료 회원과 무료 회원으로 나눠보아라!

그림 출처 https://www.asiatime.co.kr/197037?1=1


이때 수많은 데이터 중 중요한 것과 중요치 않은 변수들을 구별해내는 세심한 작업이 들어갔는데, 이 과정이머신러닝에 있어서도 사람의 판단이 중요한 부분입니다. 정보가 많다고 해서 무작정 입력했다가는 명쾌하지 않은 답이 도출될 수 있기 때문에, 유의미한 데이터를 추리고 불필요한 데이터는 정확성을 해칠 가능성이 있으니 제거해주는 '무시'의 사전작업이 필요하죠.


◆ '무시'할 데이터를 선별하는 것은 중요한 작업입니다. 그러나 만약 입력하는 데이터의 칼럼이 수백개라면 필요한 정보와 아닌 정보를 일일이 가려내는 데에 많은 에너지가 소요되겠지요. 다빈치랩스는 입력 데이터 종류 중 '입력 필드 선별(Auto Selection)' 기능을 제공해 정보 중 중요한 것과 간과해도 될 것들을 선별해줍니다. 그뿐만 아니라 입력 정보 칼럼(종류 및 변수)들 간 상관관계를 수치로 계산해주기도, 시각적인 그림으로 나타내어주기도 합니다. 비전문가가 아니어도 충분히 예측모델을 생성할 수 있도록 데이터사이언스의 입장에서 정리된 플로우를 제시하는 것입니다.


머신러닝 입력변수 자동 선별

범주형 변수와 수치형 변수 무시할 변수

'입력 필드(변수)'를 다빈치랩스가 추천해드려요: '고동색' 동그라미= '이 정보는 굳이 필요하지 않은 것 같은데 어떤가요?'


입력한 데이터 변수들간의 관계도 한 눈에 들어오도록 정리해드립니다



8. 금융권 사기 방지 및 이상치탐지, CSS(신용평가시스템) 등에 다각도로 활용 가능


금융권에서 머신러닝이 가장 핫하게 쓰이고 있는 부분 중 하나는 허위로 타인의 금전을 획득하는 경우를 막는 사기감지입니다. 사기감지에 사용되는 데이터는 바로 고객의 개인정보입니다. 민감한 정보를 다루는 만큼, 기존의 사기감지 및 방지 시스템은 시간이 많이 걸릴 뿐 아니라 누가 봐도 명백히 사기인 경우만을 잡아내는 기술적 한계를 가지고 있었습니다. 여기에 머신러닝을 도입하니 신속하고 정확하게 사기를 탐지해내어 업무 처리를 가속화하는 효과가 발생합니다.


고객의 거래정보를 통해 사기를 감지할 수 있어요!


예를 들어 신용카드 사기거래를 탐지하는 예시를 볼까요? 실제 고객이 구매한 거래정보, IP 주소, 거래 일시, 금액, 상품종류 등을 기계에 학습시킵니다. 만약 사기거래를 성사시키려는 경우, 기존 고객이 구매한 경로와 패턴 모두를 그대로 구현하기가 힘들겠죠. 분명 평소 패턴과 불일치하는 경우가 생깁니다. IP 주소일수도, 거래 패턴일수도, 상품 금액 및 기타 소비 습관이 될 수도 있습니다. 이렇게 '특이한' 행동이 감지되는 경우 기계는 이를 사기(Fraud) 라고 결정짓습니다. 사람이 간과할 수 있는 부분을 머신러닝을 통해 기계가 미리 알려주는 것이죠.


사기 감지에 머신러닝이 어떻게 사용되는지에 대한 자세한 내용은 이전 포스트 중 Pitney Bowes편에 소개되어 있습니다. 신용평가 관련 내용은 Lending Club 포스트를 참고하세요.


<사기주문 방지에 머신러닝을 활용한 사례: Pitney Bowes>

사기주문 방지 머신러닝 활용 사례


<고객 정보를 통해 사람의 대출상환여부를 예측한 CSS 머신러닝 활용 사례: Lending Club>

대출상환여부 CSS 머신러닝 활용 사례




아일리스의 인공지능 자동화 솔루션 다빈치랩스

지도학습과 시계열 분석을 통한 머신러닝 기술 보유


다빈치랩스는 머신러닝 중 지도학습 및 시계열분석을 통한 예측모델을 생성하는 자동화 솔루션입니다.

인공지능 머신러닝 자동화 솔루션으로서 현재 많이 활용되고 있는 분야는 고객 데이터가 비교적으로 잘 정형화된 금융권입니다. 기술인재의 채용 및 육성이 어려운 글로벌 금융사의 현 사정상, 다빈치랩스를 통해 소수만이 가공 및 활용 가능했던 데이터를 기반으로 현업에 적용할 수 있습니다. 국내에는 자동 머신러닝 솔루션을 제공하는 회사가 많지 않은데요, 아일리스는 다빈치랩스를 통해 다양한 분야에서 데이터 분석 및 예측모델 구현을 가능케 합니다. 몇 번의 클릭만으로 전문가들의 전유물이었던 우수한 성능의 머신러닝 예측모델을 생성할 수 있는 가장 큰 의의가 있습니다.


머신러닝 금융분야 활용 사례

다빈치랩스의 금융권 활용사례


인공지능이 더 이상 미디어만으로 접할 수 있던 모호하고 먼 이야기의 대상이 아니라는 것은 조금씩 느끼실 겁니다. 특히 코로나 19 장기화로 인해 비대면 문화가 확산되며 AI 면접 등의 소통 방식도 흔해지고 있죠. 인공지능의 한 부분으로서 머신러닝이 어떻게 우리 일상 전반에 영향을 미치는지 간단한 사례들의 모음을 통해 알아보았습니다.


다음 포스트에서는 머신러닝이 널리 사용되는 금융권 사례를 살펴보겠습니다. 그동안 지도학습 위주의 내용을 다루었다면, 이번에는 시계열분석 측면에서도 접근해보며 머신러닝에 대한 이해를 넓혀볼게요!