4. 데이터 분석 및 모델링은 정형데이터를 기반으로 한 전통적 통계기법
방식에서, 비정형데이터를 포함하는 MACHINE LEARNING 적용 방
식으로 진화하고 있습니다.
비정형 Data
(VoC 음성 데이터, 상담 메모
텍스트, SNS 텍스트 등)
스트 등
정형 Data
(Customer Master Data,
Transaction Data 등)
비정형
정형
Supervised Learning
(Classification & Regression)
Unsupervised Learning
(Clustering)
• Deep Learning
• Generalized Linear Model
• Gradient Boosting Machine
• Distributed Random Forest
• Ensembles
• ……
전통적 통계기법 Machine Learning
5. MACHINE LEARNING을 가장 최적으로 적용하고 있고, 많은 기업에
서 활용하고 있는 오픈소스 기반의 H2O 플랫폼 사례 소개
차원축소 기법 등 적용
오픈소스
기반
분산처리
Flow 개념의
UI 제공
최신의
알고리즘
탑재
많은 기업 사용자 기 확보
• PayPal, Cisco, Nielson, Progressive 등
에서 대용량 데이터 Machine Learning
에 활용됨
REST API를 통한 유연한 UI 제공
• REST API를 통해 자체 UI뿐 아니라 R,
Python으로 사용 가능함
• API를 통해 자체 시스템과의 연결이 수월함
클러스터 환경에서의 분산처리
• JVM 기반의 클러스링 환경 지원
• DBMS뿐 아니라 HDFS 등의 분산
NoSQL지원
• 빠른 계산 속도 보장
빠른 속도의 업그레이드
• 오픈소스 기반으로 빠른 업그레이드를
통해 안정성, 확장성 담보
• 특히 Spark와의 연동을 통한 실시간 처
리 지원
모델 개발 및 관리 용이성 제공
• 모든 분석결과물들은 객체(Object)로 생성되므로
모니터링, 수명 관리, 자동갱신 등이 용이
• 복잡하며 반복적인 외부 정보를 함축된 형태
로 제공하는 Generalized Low Rank Model
등의 최신 기법 제공
신개념의 분석 UI
• 과거의 WYSIWYG 방식의 Workflow가 아
니라 기술 보고서 형식의 UI제공
• 이는 Python의 Notebook이나 Spark의
제플린 방식임
다양한 ML 알고리즘 탑재
• RandomForest, Gradient Boosting
Machine 등의 앙상블 기법 및 Deep
Learning 등 지원
• 기타 분산처리 환경에서의 로지스틱,
k-means 등 지원
6. PAYMENT 시장의 INNOVATIVE LEADER PAYPAL은 사기방지
를 위해 최첨단 분석 기법을 보유하고 있었으나, 고의적 사기를 막을 수
없었습니다.
Issue
Background
(Fraud
Prevention
역량 기 존재)
• Transaction Level –
Machine Learning 및 통계 모
델 활용으로 최단기간 사기 행
동 인지 가능
• Account Level – 잦은 빈도
수의 결재, 의심되는 프로필
변경과 같은 Abusive
Behavior 인지 가능
• Network Level – 계정간 상
호작용에 대한 모니터링 가능
기존 Fraud Detection 수준
• Machine Learning 최신 모델
운영
• 확장성이 방대하며 다층의
Infrastructure Software 기반
• Data Scientists, Researcher,
Financial & Intelligence
Analysts로 이루어진 최고의
팀 운영
Enabler
+150M Active
Digital Wallets
사기행위자들은 PayPal에
더욱 지능적인 사기 행동을 벌이는 것으로 의심되는 상황
이를 위해 Deep Learning 적용을 검토함
7. COMPLEX MULTILAYERED NETWORK에 의한 데이터의
HIGH-LEVEL 패턴을 분석하는 DEEP LEARNING 방식을 도입하
여 사기방지 예측모델을 획기적으로 개선하였습니다.
근본원인
Deep
Learning
기법의
효과
• Low-level의 추상적 개념을
이해할 수 있도록 지원
• 기존과 다른 고도의 복잡성을
지닌 function에 대하여
학습할 수 있도록 지원
• 이미지, 영상 프로세싱, 실물 인식에 사
용 가능
• 용이한 확장성
• 우월한 퍼포먼스
• 유연한 활용도
• 다른 Big Data Framework와 연동
가능
• 단순한 인터페이스
기존의 탐지 방법과 달리 더 복잡한 체계
로 이루어진 모델을 제시할 수 있는
Cost effective 한 Solution 필요
확장과 계산이 가능한
예측 모델 필요
PayPal은 해결방안으로 Deep Learning 기법을 도입
Deep
Learning
결과
16. SOFTWARE-AS-A-SERVICE 회사인 MOZ는 고객 이탈 예측을
위해 DEEP LEARNING 기법인 RNN 기반 모델을 구현하였습니다.
Netflix와 같은 Software-as-a-Service(SaaS) 회사로, Moz Pro 이용고객이 납부
하는 월 이용료를 주요 수익 원천
• 일반적인 SaaS 회사의 비즈
니스 모델(30일 무료 Trial)
을 기반으로 함
• Moz의 사업 특성 상, 기
존 고객의 이탈 방지는 회
사의 수익성과 직결됨
• Moz의 데이터정보학팀과
고객관리팀은 Recurrent
Neural Networks(RNN :
Deep Learning의 일종)을
기반으로 고객 이탈에 대
한 모델링을 수행함
• 고객의 월 이용료를 주 수
익원으로 함
Free Trial Paid
Suspended
Involuntary
Churn
Voluntary
Churn
Revenue Generation Customer Lifecycle 고객 이탈 모델링
→ 고객 Life Cycle 관리를 통한 이탈예측이 핵심 경쟁력
17. MOZ는 고객의 행동 양상을 파악하여 익월 고객의 STATUS를 예측하
는 RNN 모델을 기반으로, 향후 고객 이탈을 방지하는 모델을 구현하였습
니다.
• 서비스 사용 기간이 길
어짐에 따라 보류 고객
의 과거 보류 이력 가능
성이 높음
• 즉, 과거 보류 이력은 미
래 보류 가능성 예측에
주요 단서임
• 첫 보류와 마지막 보류
사이 기간이 수개월 걸릴
수 있음
• 즉, 고객의 초기 행동을
통해 수개월 뒤의 행동
양상을 예측할 수 있음
RNN 모델 고객 행동 분석 예시
• RNN 모델을 이용하여 각 고객의 익월
Status를 예측함
• 예측 고객 Status: ①Paid (고객 유지),
②Voluntary Churn (자발적 이탈),
③Involuntary Churn (비자발적 이탈)