SlideShare a Scribd company logo
1 of 27
Download to read offline
“AI를 해주는 AI”
H2O Driverless AI
2019. 02. 18
윤민경 실장 (IBM Digital Systems HW)
010 – 4995 – 5357
mkyun@kr.ibm.com
AGENDA
▪ 기업에서의 AI 채택에 대한 고찰
▪ H2O Driverless AI 소개 및 특장점
▪ H2O DAI demo
▪ H2O DAI use cases
▪ Why H2O DAI on AC922 ?
2
Welcome to the Waitless World - 3 -
AI에 의해 바뀌는 IT Industry Landscape
"AI는 전세계에서 가장 빨리
성장하는 업무 부하”
CIOs planning to use
machine learning
300%
Increase in jobs requiring
AI skills
9/10
Increase in AI spend year
over year
“AI 전문인력에 대한 급증하는
구인난”
“대다수 기업들이 AI를 위해
준비 중”
200%
Welcome to the Waitless World - 4 -
기업에서의 AI 채택에 대한 걸림돌
AI 전문 인력 부족
~100
Data science experts in the
world
Time for a data scientist to
build a model
Months
느린 개발 속도
Black box models
AI에 대한 신뢰 부족
“미국에서만도 분석 전문가의 인력 부족이 19만명에 달한다.”
Data is a Team Sport
Welcome to the Waitless World - 5 -
전형적인 machine learning의 workflow
“Data Scientist 영역”
반복적, 장시간 중노동
“IT 영역”
ETL, data cleaning, encoding, etc
“개발자 영역”
App coding 및
튜닝
Business
Prediction
Welcome to the Waitless World - 6 -
Data Science와 ML workflow의 자동화
H2O Driverless AI
“Feature engineering부터 app까지”
Business
Prediction
“IT 영역”
ETL, data cleaning, encoding, etc
Welcome to the Waitless World - 7 -
세계적으로 인정받는 H2O Community
Financial InsuranceMarketingHW
Vendors
Retail Advisory &
Accounting
Healthcare
“H2O.ai's reference customers gave it the highest overall score for sales relationship and
overall service and support” - Gartner MQ 2018
Trial Requests
3300+
3M+
Models Built
Open source community Commercial Customers Driverless AI Demand
Welcome to the Waitless World - 8 -
AI를 해주는 AI, H2O Driverless AI
✓ 수상 경력에 빛나는 소프트웨어
✓ H2O.ai의 세계적 AI 전문가들에 의해
개발되고 지원되는 AI 소프트웨어
✓ 기업들이 단일 플랫폼에서 AI와
기계학습을 가능케 하는 소프트웨어
✓ 전문 데이터 과학자의 역할을 수행하여
초보 및 전문가 팀 모두에게 가치를 부여
✓ Highlight로 강조된 insight와 함께,
이해하기 쉬운 결과 및 시각화를 통한
interpretability
Welcome to the Waitless World - 9 -
H2O Driverless AI: “Expert Data Scientist in a Box”
SQL
Local
Amazon S3
HDFS
X Y
Automatic
Scoring Pipeline
Machine learning
Interpretability
Deploy Low-
latency
Scoring to
Production
Modelling
Dataset
Model Recipes:
• i.i.d. data
• Time-series
• More on the way
Advanced
Feature
Engineering
Algorithm Model
Tuning
+ +
Survival of the Fittest
Automatic Machine Learning
Data shape, outliers,
missing values 등을 이해
Powered by GPU Acceleration
1
Data를
drag & drop
2 자동화된 시각화
Best practice model recipes와
CPU/GPU 연산능력을
이용하여, 진보된 feature
engineering과 parameter
tuning을 포함한 수천개의
가능성 있는 모델들에 걸쳐
반복 훈련
3 자동화된 기계 학습
Feature transformation과
models를 포함한, low-
latency Python 또는 Java로
구현된 Automatic Scoring
Pipelines를 deploy
4 자동화된 Scoring
Pipelines
Data를 클라우드,
빅데이터, 데스크탑
등에서 ingest
Google BigQuery
Azure Blog Storage
Snowflake
Model
Documentation
Welcome to the Waitless World - 10 -
H2O Driverless AI의 특장점
✓ 자동화:
▪ Visualization
▪ Feature Engineering
▪ Model Tuning
▪ Time Series
✓ 생성 모델의 편리한 활용 지원:
▪ Automatic Pipelines
▪ Low latency inferencing
✓ Machine Learning Interpretation:
▪ 사유 부호(reason code) 지원
▪ AI의 결정에 대한 해석과 설명이 가능
✓ Enterprise Ready:
▪ 보안성 – LDAP, Kerberos
▪ 확장성 – Scale with GPUs
▪ 기업들의 source data를 지원
Welcome to the Waitless World - 11 -
자동화된 AI로 손쉽고 빠른 예측
✓ 단순한 인터페이스
✓ Feature engineering을
자동화하여 정확성 증대
✓ 넓은 범위의 use case를 풀기
위해 자동화된 recipe들
✓ 적절한 model들의 집합을
찾고 조율하기 위한 자동화된
tuning
Welcome to the Waitless World - 12 -
신뢰와 규제 준수를 위한 업계 선두의 Interpretability
✓ 규제 뿐만 아니라
디버깅을 위해 필요한
Interpretability
✓ 사유 코드(reason
code)와 모델
interpretability를 영어
평문으로 생성
✓ 각 예측 값에 대한
사유 코드 생성에
K-Lime, LOCO, partial
dependence 등의
기술을 지원
Welcome to the Waitless World - 13 -
Low-latency Model들의 편리한 배치 활용
✓ 독립된 prediction program의 자동 생성
▪ Python 및 Java로 된 “scoring-pipeline”
자동 생성
▪ 편리한 inferencing
✓ 새로운 model 생성시 편리한 update
✓ 복잡한 big data model에 대해 최적화된
scoring code
✓ 최말단 및 모바일 등 어떤 디바이스에서나
배치 가능한 간결한 scoring code
✓ 실시간 app을 만족시키는 millisecond
단위의 반응 속도
Welcome to the Waitless World - 14 -
H2O DriverlessAI : 손쉽고 직관적인 machine learning
Welcome to the Waitless World - 15 -
Gartner Magic Quadrant for Data Science & ML platform
Source :
https://b2bsalescafe.files.wordpress.com/2018/03/magic-
quadrant-for-data-science-and-machine-learning-
platforms.pdf
✓ H2O.ai는 플랫폼 경쟁사들 중 가장
뛰어난 vision을 제시
✓ 커뮤니티 공유 및 파트너쉽, AI의
실질적인 산업 표준이라는
측면에서 높게 평가됨
✓ 특히 H2O.ai는 고객들로부터 고객
관리 및 기술 지원 측면에서
벤더들 중 가장 높은 점수를 획득
Welcome to the Waitless World - 16 -
H2O DAI를 이용한 credit card fraud detection 정확도
Data source : https://www.kaggle.com/mlg-ulb/creditcardfraud/home
Test 상세 : https://hwengineer.blogspot.com/2018/12/h2o-driverless-ai-kaggle-creditcard.html
✓ Kaggle에서 제공되는 실제 신용카드 사기 dataset을 이용하여 H2O DAI의 실제 정확도 측정
✓ 전체 거래 (28만건 이상) 중 사기거래(Class=“1”)는 492건 (0.173%)
✓ Test dataset 3천건 중 실제 사기거래는 4건 (row_num : 588, 871, 874, 921)
Welcome to the Waitless World - 17 -
H2O DAI를 이용한 제조업 관련 data 예측
Data source : https://www.kaggle.com/burakhmmtgl/predict-molecular-properties/home
Test 상세 : http://hwengineer.blogspot.com/2019/01/h2o-driverless.html
✓ Kaggle에서 제공되는 실제 분자 구조 및 에너지 dataset을 이용하여 H2O DAI의 실제 정확도 측정
✓ JSON format의 비정형 string을 자동 feature engineering을 통해 분석하여 분자 에너지 값을 예측
✓ JSON 파일은 간단한 python code를 이용해 CSV로 전환
{
'En': 37.801,
'atoms': [
{'type': 'O', 'xyz': [0.3387, 0.9262, 0.46]},
{'type': 'O', 'xyz': [3.4786, -1.7069, -0.3119]},
{'type': 'N', 'xyz': [-2.2359, -0.7251, 0.027]},
{'type': 'C', 'xyz': [-0.7783, -1.1579, 0.0914]},
{'type': 'C', 'xyz': [0.1368, -0.0961, -0.5161]},
...
{'type': 'H', 'xyz': [1.5832, 2.901, 1.6404]}
],
'id': 1,
'shapeM': [259.66, 4.28, 3.04, 1.21, 1.75, 2.55,
0.16, -3.13, -0.22, -2.18, -0.56, 0.21, 0.17, 0.09]
}
Welcome to the Waitless World - 18 -
H2O.ai at Capital One: Use Cases
도매/상업 뱅킹
• Know Your Customers (KYC)
- 고객 전방위 평가를 위한 확률적 맷칭 엔진
• 자금 세탁 방지 (AML)
- 허위 거래 및 의심 활동 보고서(SAR’s) 신고 처리
• 문서 분류
- 향상된 기계 학습 기반 문서 분류로 수작업 감축
카드/지불 관련 업무
• 신청/거래 사기 예측 및 방지
- 손실 감소 및 고객 만족 향상
• 실시간 타케팅 및 실구매율 향상
• 신용 리스크 평가 및 포트 폴리오 최적화
• 문맥 내 (in-context) 프로모션
- 고객 만족율 및 실제 구매율 향상
소비자 뱅킹
• 예금 사기 예측
- 고객 펀드 가입 신속화 및 고객 만족 향상
• 고객 이탈 예측 및 유지율 향상
• 자동 대출 신용 리스크
- 신용 포트폴리오 최적화
• 소득 증명 예측
- 수작업 및 확인 작업 감소
• Direct-Mail 마케팅 최적화
인프라스트럭쳐
• 보안 Cyberlake
- Windows Syslog / 도메인 생성 알고리즘
• Autonomic Computing
- 기간계 시스템의 운영 효율 향상
• Master Data 관리
- 확률적 맷칭 엔진에 의한 단일 고객 기록
• Model 관리 & governance
- 모델 관리 및 문서화
Welcome to the Waitless World - 19 -
Use case : 금융 사기 탐지
Venkatesh Ramanathan
Senior Data Scientist, PayPal
✓ Driverless AI는 10년
경력의 feature
engineering 전문가에
필적
✓ 사기 행위 탐지
정확도를 0.89에서
0.947로 6% 향상
✓ H2O4GPU with
Driverless AI
사용으로 6배 속도
향상
“Driverless AI는
feature 및 모델 성능
측면에서 놀라운
결과를 만들어내고
있습니다.”
Welcome to the Waitless World - 20 -
Use case : 마케팅 최적화
“Driverless AI는 우리의
Intelligent Marketing Cloud
로 고객에게 접근하는데 큰
도움을 주었습니다. AI를 하기
위한 AI는 우리 시스템을
날마다 향상시켜 주고
있습니다.”
Martin Stein
Chief Product Officer
✓ 다른 부동산 디지털
마케팅 솔루션보다
2.5배 뛰어난 효과
✓ 한 G5 고객사는 연간
디지털 마케팅 비용
$500K를
절감하면서도 웹
트래픽을 3배로 늘림
✓ 10배 빠른 모델 생성
Welcome to the Waitless World - 21 -
Use case : 매출 예측 및 수급 관리
“H2O Driverless AI feature
engineering은 제가 본 것 중
최고입니다. 그리고 scoring
pipeline 생성은 제게는 아마
최고의 플러스입니다. 시간을
크게 줄여주었거든요.”
Robert Coop
Sr. Data Scientist
Stanley Black & Decker
✓ 1명의 data
scientist로 25% 시간
절약
✓ 제조 생산 라인을
위한 모델 튜닝과
훈련에 1달의 시간
단축
✓ Forecast 정확성
향상을 통해 미래
고객 주문을 위한
필요 부품 및
원자재를 정확히 예측
Welcome to the Waitless World - 22 -
Use case : 고객 추천 및 관리
“Driverless AI는 우리 data
science team에게 효율적
운영과 대규모 실험을
가능하게 해주었습니다.
이런 새로운 혁신을 통해
전반적 환자 진료에 큰
개선을 이루었습니다.”
Bharath Sudarshan
Director of Data Science and Innovation
Armada Health
✓ 기계학습 추천에 의해
특정 환자에 가장
알맞은 의사를 연결
✓ 회사들은 급증하는 순
프로모터 점수 및
거의 완벽에 가까운
고객 만족율을 경험
✓ 고객 충성도와
프리미엄 고객
유지율이 모두 증가
✓ 비용 감소와 동시에
환자의 치료 대기
시간이 감소
Welcome to the Waitless World - 23 -
H2O Driverless AI는 모든 산업에 가치를 제공
10년 경력의 machine learning
전문가에 필적
Near perfect
scores
2.5X
Performance
다른 디지털 마케팅을 압도고객 만족 향상
“Driverless AI is giving amazing results
in terms of feature and model
performance “
Venkatesh Ramanathan
Senior Data Scientist, PayPal
Financial Services
“Driverless AI powers our data science
team to operate at scale. We have the
opportunity to impact care at large.”
Healthcare Marketing
+6%
Accuracy
Martin Stein
Chief Product Officer, G5
Bharath Sudarshan
Director of Data Science, Armada Health
“Driverless AI helped us gain an edge for
our clients. AI to do AI, truly is
improving our system on a daily basis.”
Welcome to the Waitless World - 24 -
왜 H2O Driverless AI를 IBM GPU서버에서 써야하나 ?
High Speed Data Transfer
9.5x
Big Data Scale
2.6xMore RAM Max I/O bandwidth
30x
GPU Accelerated ML
NVLink와 PCIe Gen4를 탑재한 POWER9 GPU서버가 해결책!
Faster on GPUs
High Speed Data Transfer
1.5x
Big Data Scale
2xData Ingest Feature Engineering
5x
GPU Accelerated ML
Time Series
H2O DAI의 병목은 GPU 성능이나 GPU 메모리가 아니라 연결 대역폭
Welcome to the Waitless World - 25 -
H2O DriverlessAI의 CPU 및 GPU 사용 형태
Fri Oct 5 03:36:45 2018
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 396.26 Driver Version: 396.26 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla P100-SXM2... On | 00000002:01:00.0 Off | 0 |
| N/A 34C P0 64W / 300W | 455MiB / 16280MiB | 40% Default |
+-------------------------------+----------------------+----------------------+
| 1 Tesla P100-SXM2... On | 00000003:01:00.0 Off | 0 |
| N/A 36C P0 77W / 300W | 455MiB / 16280MiB | 38% Default |
+-------------------------------+----------------------+----------------------+
| 2 Tesla P100-SXM2... On | 0000000A:01:00.0 Off | 0 |
| N/A 32C P0 71W / 300W | 455MiB / 16280MiB | 40% Default |
+-------------------------------+----------------------+----------------------+
| 3 Tesla P100-SXM2... On | 0000000B:01:00.0 Off | 0 |
| N/A 36C P0 64W / 300W | 455MiB / 16280MiB | 38% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| 0 94004 C ...el-running(prot=False)-XGBoostModel-fit 445MiB |
| 1 94011 C ...el-running(prot=False)-XGBoostModel-fit 445MiB |
| 2 94044 C ...el-running(prot=False)-XGBoostModel-fit 445MiB |
| 3 94126 C ...el-running(prot=False)-XGBoostModel-fit 445MiB |
+-----------------------------------------------------------------------------+
H2O DAI의 병목은 GPU 성능이나 GPU 메모리가 아니라 연결 대역폭
Welcome to the Waitless World - 26 -
Driverless AI의 시스템 사이징
✓ 현재는 단일 노드
구성만 지원됨
(멀티노드 구성은
향후 지원 예정)
✓ IBM AC922을 권고
✓ 사이징은
기본적으로 동시
사용자 수에 근거
✓ 모든 data는 in-
memory를 가정,
디스크는 data의
10배 권고
Source : https://developer.ibm.com/linuxonpower/driverless-ai-on-power/
27

More Related Content

Featured

How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellSaba Software
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming LanguageSimplilearn
 

Featured (20)

How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them wellGood Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
 
Introduction to C Programming Language
Introduction to C Programming LanguageIntroduction to C Programming Language
Introduction to C Programming Language
 

AI를 위한 AI, H2O DriverlessAI 소개자료

  • 1. “AI를 해주는 AI” H2O Driverless AI 2019. 02. 18 윤민경 실장 (IBM Digital Systems HW) 010 – 4995 – 5357 mkyun@kr.ibm.com
  • 2. AGENDA ▪ 기업에서의 AI 채택에 대한 고찰 ▪ H2O Driverless AI 소개 및 특장점 ▪ H2O DAI demo ▪ H2O DAI use cases ▪ Why H2O DAI on AC922 ? 2
  • 3. Welcome to the Waitless World - 3 - AI에 의해 바뀌는 IT Industry Landscape "AI는 전세계에서 가장 빨리 성장하는 업무 부하” CIOs planning to use machine learning 300% Increase in jobs requiring AI skills 9/10 Increase in AI spend year over year “AI 전문인력에 대한 급증하는 구인난” “대다수 기업들이 AI를 위해 준비 중” 200%
  • 4. Welcome to the Waitless World - 4 - 기업에서의 AI 채택에 대한 걸림돌 AI 전문 인력 부족 ~100 Data science experts in the world Time for a data scientist to build a model Months 느린 개발 속도 Black box models AI에 대한 신뢰 부족 “미국에서만도 분석 전문가의 인력 부족이 19만명에 달한다.” Data is a Team Sport
  • 5. Welcome to the Waitless World - 5 - 전형적인 machine learning의 workflow “Data Scientist 영역” 반복적, 장시간 중노동 “IT 영역” ETL, data cleaning, encoding, etc “개발자 영역” App coding 및 튜닝 Business Prediction
  • 6. Welcome to the Waitless World - 6 - Data Science와 ML workflow의 자동화 H2O Driverless AI “Feature engineering부터 app까지” Business Prediction “IT 영역” ETL, data cleaning, encoding, etc
  • 7. Welcome to the Waitless World - 7 - 세계적으로 인정받는 H2O Community Financial InsuranceMarketingHW Vendors Retail Advisory & Accounting Healthcare “H2O.ai's reference customers gave it the highest overall score for sales relationship and overall service and support” - Gartner MQ 2018 Trial Requests 3300+ 3M+ Models Built Open source community Commercial Customers Driverless AI Demand
  • 8. Welcome to the Waitless World - 8 - AI를 해주는 AI, H2O Driverless AI ✓ 수상 경력에 빛나는 소프트웨어 ✓ H2O.ai의 세계적 AI 전문가들에 의해 개발되고 지원되는 AI 소프트웨어 ✓ 기업들이 단일 플랫폼에서 AI와 기계학습을 가능케 하는 소프트웨어 ✓ 전문 데이터 과학자의 역할을 수행하여 초보 및 전문가 팀 모두에게 가치를 부여 ✓ Highlight로 강조된 insight와 함께, 이해하기 쉬운 결과 및 시각화를 통한 interpretability
  • 9. Welcome to the Waitless World - 9 - H2O Driverless AI: “Expert Data Scientist in a Box” SQL Local Amazon S3 HDFS X Y Automatic Scoring Pipeline Machine learning Interpretability Deploy Low- latency Scoring to Production Modelling Dataset Model Recipes: • i.i.d. data • Time-series • More on the way Advanced Feature Engineering Algorithm Model Tuning + + Survival of the Fittest Automatic Machine Learning Data shape, outliers, missing values 등을 이해 Powered by GPU Acceleration 1 Data를 drag & drop 2 자동화된 시각화 Best practice model recipes와 CPU/GPU 연산능력을 이용하여, 진보된 feature engineering과 parameter tuning을 포함한 수천개의 가능성 있는 모델들에 걸쳐 반복 훈련 3 자동화된 기계 학습 Feature transformation과 models를 포함한, low- latency Python 또는 Java로 구현된 Automatic Scoring Pipelines를 deploy 4 자동화된 Scoring Pipelines Data를 클라우드, 빅데이터, 데스크탑 등에서 ingest Google BigQuery Azure Blog Storage Snowflake Model Documentation
  • 10. Welcome to the Waitless World - 10 - H2O Driverless AI의 특장점 ✓ 자동화: ▪ Visualization ▪ Feature Engineering ▪ Model Tuning ▪ Time Series ✓ 생성 모델의 편리한 활용 지원: ▪ Automatic Pipelines ▪ Low latency inferencing ✓ Machine Learning Interpretation: ▪ 사유 부호(reason code) 지원 ▪ AI의 결정에 대한 해석과 설명이 가능 ✓ Enterprise Ready: ▪ 보안성 – LDAP, Kerberos ▪ 확장성 – Scale with GPUs ▪ 기업들의 source data를 지원
  • 11. Welcome to the Waitless World - 11 - 자동화된 AI로 손쉽고 빠른 예측 ✓ 단순한 인터페이스 ✓ Feature engineering을 자동화하여 정확성 증대 ✓ 넓은 범위의 use case를 풀기 위해 자동화된 recipe들 ✓ 적절한 model들의 집합을 찾고 조율하기 위한 자동화된 tuning
  • 12. Welcome to the Waitless World - 12 - 신뢰와 규제 준수를 위한 업계 선두의 Interpretability ✓ 규제 뿐만 아니라 디버깅을 위해 필요한 Interpretability ✓ 사유 코드(reason code)와 모델 interpretability를 영어 평문으로 생성 ✓ 각 예측 값에 대한 사유 코드 생성에 K-Lime, LOCO, partial dependence 등의 기술을 지원
  • 13. Welcome to the Waitless World - 13 - Low-latency Model들의 편리한 배치 활용 ✓ 독립된 prediction program의 자동 생성 ▪ Python 및 Java로 된 “scoring-pipeline” 자동 생성 ▪ 편리한 inferencing ✓ 새로운 model 생성시 편리한 update ✓ 복잡한 big data model에 대해 최적화된 scoring code ✓ 최말단 및 모바일 등 어떤 디바이스에서나 배치 가능한 간결한 scoring code ✓ 실시간 app을 만족시키는 millisecond 단위의 반응 속도
  • 14. Welcome to the Waitless World - 14 - H2O DriverlessAI : 손쉽고 직관적인 machine learning
  • 15. Welcome to the Waitless World - 15 - Gartner Magic Quadrant for Data Science & ML platform Source : https://b2bsalescafe.files.wordpress.com/2018/03/magic- quadrant-for-data-science-and-machine-learning- platforms.pdf ✓ H2O.ai는 플랫폼 경쟁사들 중 가장 뛰어난 vision을 제시 ✓ 커뮤니티 공유 및 파트너쉽, AI의 실질적인 산업 표준이라는 측면에서 높게 평가됨 ✓ 특히 H2O.ai는 고객들로부터 고객 관리 및 기술 지원 측면에서 벤더들 중 가장 높은 점수를 획득
  • 16. Welcome to the Waitless World - 16 - H2O DAI를 이용한 credit card fraud detection 정확도 Data source : https://www.kaggle.com/mlg-ulb/creditcardfraud/home Test 상세 : https://hwengineer.blogspot.com/2018/12/h2o-driverless-ai-kaggle-creditcard.html ✓ Kaggle에서 제공되는 실제 신용카드 사기 dataset을 이용하여 H2O DAI의 실제 정확도 측정 ✓ 전체 거래 (28만건 이상) 중 사기거래(Class=“1”)는 492건 (0.173%) ✓ Test dataset 3천건 중 실제 사기거래는 4건 (row_num : 588, 871, 874, 921)
  • 17. Welcome to the Waitless World - 17 - H2O DAI를 이용한 제조업 관련 data 예측 Data source : https://www.kaggle.com/burakhmmtgl/predict-molecular-properties/home Test 상세 : http://hwengineer.blogspot.com/2019/01/h2o-driverless.html ✓ Kaggle에서 제공되는 실제 분자 구조 및 에너지 dataset을 이용하여 H2O DAI의 실제 정확도 측정 ✓ JSON format의 비정형 string을 자동 feature engineering을 통해 분석하여 분자 에너지 값을 예측 ✓ JSON 파일은 간단한 python code를 이용해 CSV로 전환 { 'En': 37.801, 'atoms': [ {'type': 'O', 'xyz': [0.3387, 0.9262, 0.46]}, {'type': 'O', 'xyz': [3.4786, -1.7069, -0.3119]}, {'type': 'N', 'xyz': [-2.2359, -0.7251, 0.027]}, {'type': 'C', 'xyz': [-0.7783, -1.1579, 0.0914]}, {'type': 'C', 'xyz': [0.1368, -0.0961, -0.5161]}, ... {'type': 'H', 'xyz': [1.5832, 2.901, 1.6404]} ], 'id': 1, 'shapeM': [259.66, 4.28, 3.04, 1.21, 1.75, 2.55, 0.16, -3.13, -0.22, -2.18, -0.56, 0.21, 0.17, 0.09] }
  • 18. Welcome to the Waitless World - 18 - H2O.ai at Capital One: Use Cases 도매/상업 뱅킹 • Know Your Customers (KYC) - 고객 전방위 평가를 위한 확률적 맷칭 엔진 • 자금 세탁 방지 (AML) - 허위 거래 및 의심 활동 보고서(SAR’s) 신고 처리 • 문서 분류 - 향상된 기계 학습 기반 문서 분류로 수작업 감축 카드/지불 관련 업무 • 신청/거래 사기 예측 및 방지 - 손실 감소 및 고객 만족 향상 • 실시간 타케팅 및 실구매율 향상 • 신용 리스크 평가 및 포트 폴리오 최적화 • 문맥 내 (in-context) 프로모션 - 고객 만족율 및 실제 구매율 향상 소비자 뱅킹 • 예금 사기 예측 - 고객 펀드 가입 신속화 및 고객 만족 향상 • 고객 이탈 예측 및 유지율 향상 • 자동 대출 신용 리스크 - 신용 포트폴리오 최적화 • 소득 증명 예측 - 수작업 및 확인 작업 감소 • Direct-Mail 마케팅 최적화 인프라스트럭쳐 • 보안 Cyberlake - Windows Syslog / 도메인 생성 알고리즘 • Autonomic Computing - 기간계 시스템의 운영 효율 향상 • Master Data 관리 - 확률적 맷칭 엔진에 의한 단일 고객 기록 • Model 관리 & governance - 모델 관리 및 문서화
  • 19. Welcome to the Waitless World - 19 - Use case : 금융 사기 탐지 Venkatesh Ramanathan Senior Data Scientist, PayPal ✓ Driverless AI는 10년 경력의 feature engineering 전문가에 필적 ✓ 사기 행위 탐지 정확도를 0.89에서 0.947로 6% 향상 ✓ H2O4GPU with Driverless AI 사용으로 6배 속도 향상 “Driverless AI는 feature 및 모델 성능 측면에서 놀라운 결과를 만들어내고 있습니다.”
  • 20. Welcome to the Waitless World - 20 - Use case : 마케팅 최적화 “Driverless AI는 우리의 Intelligent Marketing Cloud 로 고객에게 접근하는데 큰 도움을 주었습니다. AI를 하기 위한 AI는 우리 시스템을 날마다 향상시켜 주고 있습니다.” Martin Stein Chief Product Officer ✓ 다른 부동산 디지털 마케팅 솔루션보다 2.5배 뛰어난 효과 ✓ 한 G5 고객사는 연간 디지털 마케팅 비용 $500K를 절감하면서도 웹 트래픽을 3배로 늘림 ✓ 10배 빠른 모델 생성
  • 21. Welcome to the Waitless World - 21 - Use case : 매출 예측 및 수급 관리 “H2O Driverless AI feature engineering은 제가 본 것 중 최고입니다. 그리고 scoring pipeline 생성은 제게는 아마 최고의 플러스입니다. 시간을 크게 줄여주었거든요.” Robert Coop Sr. Data Scientist Stanley Black & Decker ✓ 1명의 data scientist로 25% 시간 절약 ✓ 제조 생산 라인을 위한 모델 튜닝과 훈련에 1달의 시간 단축 ✓ Forecast 정확성 향상을 통해 미래 고객 주문을 위한 필요 부품 및 원자재를 정확히 예측
  • 22. Welcome to the Waitless World - 22 - Use case : 고객 추천 및 관리 “Driverless AI는 우리 data science team에게 효율적 운영과 대규모 실험을 가능하게 해주었습니다. 이런 새로운 혁신을 통해 전반적 환자 진료에 큰 개선을 이루었습니다.” Bharath Sudarshan Director of Data Science and Innovation Armada Health ✓ 기계학습 추천에 의해 특정 환자에 가장 알맞은 의사를 연결 ✓ 회사들은 급증하는 순 프로모터 점수 및 거의 완벽에 가까운 고객 만족율을 경험 ✓ 고객 충성도와 프리미엄 고객 유지율이 모두 증가 ✓ 비용 감소와 동시에 환자의 치료 대기 시간이 감소
  • 23. Welcome to the Waitless World - 23 - H2O Driverless AI는 모든 산업에 가치를 제공 10년 경력의 machine learning 전문가에 필적 Near perfect scores 2.5X Performance 다른 디지털 마케팅을 압도고객 만족 향상 “Driverless AI is giving amazing results in terms of feature and model performance “ Venkatesh Ramanathan Senior Data Scientist, PayPal Financial Services “Driverless AI powers our data science team to operate at scale. We have the opportunity to impact care at large.” Healthcare Marketing +6% Accuracy Martin Stein Chief Product Officer, G5 Bharath Sudarshan Director of Data Science, Armada Health “Driverless AI helped us gain an edge for our clients. AI to do AI, truly is improving our system on a daily basis.”
  • 24. Welcome to the Waitless World - 24 - 왜 H2O Driverless AI를 IBM GPU서버에서 써야하나 ? High Speed Data Transfer 9.5x Big Data Scale 2.6xMore RAM Max I/O bandwidth 30x GPU Accelerated ML NVLink와 PCIe Gen4를 탑재한 POWER9 GPU서버가 해결책! Faster on GPUs High Speed Data Transfer 1.5x Big Data Scale 2xData Ingest Feature Engineering 5x GPU Accelerated ML Time Series H2O DAI의 병목은 GPU 성능이나 GPU 메모리가 아니라 연결 대역폭
  • 25. Welcome to the Waitless World - 25 - H2O DriverlessAI의 CPU 및 GPU 사용 형태 Fri Oct 5 03:36:45 2018 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 396.26 Driver Version: 396.26 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | |===============================+======================+======================| | 0 Tesla P100-SXM2... On | 00000002:01:00.0 Off | 0 | | N/A 34C P0 64W / 300W | 455MiB / 16280MiB | 40% Default | +-------------------------------+----------------------+----------------------+ | 1 Tesla P100-SXM2... On | 00000003:01:00.0 Off | 0 | | N/A 36C P0 77W / 300W | 455MiB / 16280MiB | 38% Default | +-------------------------------+----------------------+----------------------+ | 2 Tesla P100-SXM2... On | 0000000A:01:00.0 Off | 0 | | N/A 32C P0 71W / 300W | 455MiB / 16280MiB | 40% Default | +-------------------------------+----------------------+----------------------+ | 3 Tesla P100-SXM2... On | 0000000B:01:00.0 Off | 0 | | N/A 36C P0 64W / 300W | 455MiB / 16280MiB | 38% Default | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: GPU Memory | | GPU PID Type Process name Usage | |=============================================================================| | 0 94004 C ...el-running(prot=False)-XGBoostModel-fit 445MiB | | 1 94011 C ...el-running(prot=False)-XGBoostModel-fit 445MiB | | 2 94044 C ...el-running(prot=False)-XGBoostModel-fit 445MiB | | 3 94126 C ...el-running(prot=False)-XGBoostModel-fit 445MiB | +-----------------------------------------------------------------------------+ H2O DAI의 병목은 GPU 성능이나 GPU 메모리가 아니라 연결 대역폭
  • 26. Welcome to the Waitless World - 26 - Driverless AI의 시스템 사이징 ✓ 현재는 단일 노드 구성만 지원됨 (멀티노드 구성은 향후 지원 예정) ✓ IBM AC922을 권고 ✓ 사이징은 기본적으로 동시 사용자 수에 근거 ✓ 모든 data는 in- memory를 가정, 디스크는 data의 10배 권고 Source : https://developer.ibm.com/linuxonpower/driverless-ai-on-power/
  • 27. 27