SlideShare a Scribd company logo
1 of 52
MACHINE LEARNING & FINTECH
機器學習與金融科技
科技創新改變傳統金融業的運作方式
大數據扮演重要角色
 藉由分析金融市場中的各種交易數據開發出智慧型
決策系統
 改變傳統金融業的運作方式
 機器人理財
 P2P網貸
 群眾募資
 區塊鏈
 社群金融
 智慧電商
大規模的資料分析
 了解客戶的行為與需求能設計客製化金融商品與
精準行銷
 金融服務特別重要的是個人化
 每個人所需要的金融服務都不一樣,風險系數也不
一樣
 機器必須要有智慧,才有辦法達到大規模的個人化
服務
智慧科技
• 預測分析
• 情感分析
• 風險因素變化
• 問題預測
Better Decisions 更
好的決策
• 機器人(BOTS)
• 智慧理專
• 智慧自動回應
• 智慧代理人
Engaged Users
用戶互動
• 推薦引擎
• 決策建議
• 熱門推薦
• 智能路由
Faster Resolutions
更快解決
• 智慧搜尋
• 知識管理
• 全文搜索
Improved Service
改善服務
人工智慧
人工智慧的進展
影像識別 藝術創作 語意理解
詩詞創作 下圍棋
這些突破是由什麼造成的
 機器學習
 深度學習
關鍵性的主導因素(KEY DRIVERS)
機器學習
(Machine
Learning)
資訊爆炸
高性能計
算
可用性及
普遍性
高等演算
法
5
AGENDA
大數據(Big Data)
機器學習(Machine Learning)
案例研究(Case Studies)
應用範圍與工具(Future Scope & Tools)
結論(Conclusion)
BIG DATA
大數據
數據包含商業價值
大量(Volume)
• 資料規模
• TB
• PB
• EB
多樣(Variety)
• 資料格式
• 結構化
• 非結構化
• 文字
• 多媒體
即時(Velocity)
• 資料串流
• 即時分析
• 分析回饋
準確(Veracity)
• 數據偏差
• 資料管理
• 可靠性
• 可預測性
「儲存」「分析」「溝通」
 用非傳統方法「儲存」「挖掘」
「溝通」找出嶄新商業機會
 使用機器學習進行預測分析
 怎麼做(HOW)
 建立資料分析團隊
技術瓶頸(SKILLS GAP)
大數據是科學的信息分析領域 大數據技能差距
 95% 時間是在清理資料
 10% 開發人員知道Big Data
 1% 開發人員瞭解分散式資料庫是為了容錯處理
(Fault Tolerance)
 線性代數(Linear algebra)
 機率(Probability theory)
 圖學(Graph theory)
NOSQL
NoSQL
 Map Reduce
 適合使用文本資料結構
 NoSQL
 CAP理論:適合高吞吐量存取
 Big Data
 實際應用會混合NoSQL和SQL
Data Quality
 資料的可信度
 永遠要檢查資料
 Garbage In Garbage Out
HADOOP分散式檔案系統
資料儲存
 HDFS , Hadoop Distributed File System
 分散式檔案系統
 機海戰術
 多重複製備份檔案
資料處理
 Map Reduce
MAP REDUCE
 大規模平行處理的平台
 使用Functional Language
 Map Reduce
 Map
 分割資料為Key-Value格式
 Reduce
 彙整相同的Key計算
 分散處理,回傳資料,更有效率
05-06-2017
資料採擷(DATA MINING)
1. 預測(Predict)未來趨勢
2. 企業主動決策
3. 知識驅動(Knowledge-Driven)
05-06-2017
資料分析(DATA ANALYSIS)
數據分析
 演算法與學習模式(Learn Pattern)
 挖掘數據中的資料規律
 創建知識改善商業決策
大規模資料分析
 Hadoop
 分散式檔案管理功能
 儲存資料在硬碟
 讀寫資料延遲問題
 Spark
 提供機器學習API
 使用記憶體內運算技術
 記憶體內分析運算
 速度快100倍
05-06-2017
資料視覺化 (DATA VISUALIZATION)
數據導向決策
 圖像呈現資料分析結果
 閱讀圖像的速度遠比文字快
 比查閱試算數據或書面報告更有效率
數據分析結果
 儀錶板(Dashboard)
 動態報表、指標管理(KPI)
 軟體
 Tableau
 Power BI
 結合微軟產品
 成本低
MACHINE LEARNING
機器學習
從大數據到資料分析
資料分析(DATA ANALYSIS)
統計分析
(Statistical
Analysis)
• SPSS
• SAS
資料探勘
(Data Mining)
• Database
機器學習
(Machine
Learning)
• Big Data
 這是一個增長非常快的領域
 許多技術和演算法
 是具有廣泛應用的工具箱
 從非常簡單到極度複雜
 數學知識相當重要
05-06-2017
機器學習(MACHINE LEARNING)
機器學習是人工智慧的一種方法
人工智慧
(Artificial
Intelligenc
e)機器學習
(Machine
Learning)
深度學習
(Deep
Learning)
讓電腦自行從資料中學習
 沒有明確規則的學習方式
 X以窮舉法輸入所有條件
 O機器從海量資料歸納
 ImageNet
 2015 Microsoft 準確率超越人類
 Gartner
 By 2019, IT service desks utilizing machine-learning
enhanced technologies will free up to 30% of support
capacity.
MACHINE LEARNING
DATA
•知識
•互動
•使用模式
MACHINE
LEARNING
•演算法
•迴歸分析
•異常檢測
MODEL
•資料科學
•大數據平台
•分析工具
INTELLIGENT
FEATURES
•推薦系統
•預測分析
•機器人
A
P
I
BIG DATA & MACHINE LEARNING
 這是一個巨大的領域,增長非常快
 許多技術和演算法
 可以看作是具有廣泛應用的工具箱
 從非常簡單到極度複雜
 數學知識相當重要
22
模型選取(MODEL SELECTION)
 依據資料量、資料類型與運算效能,採用不同的模型
 資料清整(Data Cleaning)
 特徵萃取(Feature Extraction)
 特徵選擇(Feature Selection)
機器學習的方法(TYPES OF LEARNING)
監督式學習
• Supervised Learning
非監督式學習
• Unsupervised Learning
增強式學習
• Reinforcement Learning
機器學習的類型(TYPES OF LEARNING)
 監督學習(Supervised Learning)
 訓練的過程中告訴機器答案
 給予「有標籤」的資料
 人工下標籤
 無監督學習(Unsupervised Learning)
 訓練資料沒有標準答案
 給予「無標籤」的資料,機器會自動找出潛在的規則
 根據資料的分布、找到資料間的相似性
 增強學習(Reinforcement Learning)
 透過觀察環境而行動,並會隨時根據新近來的資料逐步修正
 根據反饋,機器會自行逐步修正、最終得到正確的結果
 「馬可夫決策過程」(Markov Decision Process)
監督式機器學習
訓練資料 機器學習模型 輸出值
正確答案
比對答案
E(h(X),Y)如果答錯了,要修正模型
機器學習模型測試資料
訓練完成
輸出值
ship
資料
人工標記
非監督式學習
機器學習模型
Beijing is the capital of China.
As China's capital, Beijing is a large and
vibrant city.
Tokyo is the capital of Japan.
As Japan’s capital, Tokyo is a large and
vibrant city.
…….
資料
結果
增強式學習
機器學習模型環境
訊息
動作
統計分析(STATISTICAL ANALYSIS)演算法
 分群(Clustering)
 關聯分析(Association Learning)
 參數估計(Parameter Estimation)
 推薦(Recommendation)
 分類(Classification)
 相似度匹配(Similarity Matching)
 人工神經網路(Neural Networks)
 貝氏網路(Bayesian Networks)
 基因(Genetic Algorithms)
資料探勘(DATA MINING)演算法
 卷積神經網路(Convolutional Neural Networks)
 Deep Learning
 支援向量機(Support Vector Machines)
 隨機森林(Random Forest)
 決策樹(Decision Tree)
 分群(Clustering)
 K-means
機器學習(MACHINE LEARNING)演算法
 監督學習(Supervised Learning)
 「分群」 (Clustering)演算法
 關聯規則探索(Association Rule Discovery)
 無監督學習(Unsupervised Learning)
 「分類」(Classification)演算法
 增強學習(Reinforcement Learning)
機器學習(MACHINE LEARNING)演算法
監督學習(Supervised Learning)
線性迴歸(Linear regression)
無監督學習(Unsupervised Learning)
分群(Clustering)
深度學習(DEEP LEARNING)
模擬神經元
nW1
W2
x1
x2
b
Wb
y
nin
nout
卷積神經網路
x
y
n11
n12
n21
n22W12,y
W12,x
b
W11,y
W11,bW12,b
b
W11,x W21,11
W22,12
W21,12
W22,11
W21,bW22,b
z1
z2
Input
Layer
Hidden
Layer
Output
Layer
CASE STUDIES
案例研究
人工智慧:投資環境
三星收購Siri發明人的新創公司
虛擬助理「Viv」
天氣預報APP(社群、時事)
聊天機器人Poncho
人工智慧:短期的未來
NVIDIA
P40 GPU是TPU的2倍,頻寬是其10倍
Google
CPU比GPU(圖像處理晶片)快了15至30倍
人工智慧:長期的未來
IBM True North
仿人腦晶片
Intel
GPU+CPU整合
FINTECH人工智慧:市場動態
財務建議 Sentient Technologies 智慧錢包 Wallet.AI
FINTECH人工智慧:機器學習
案例分析 無所不在
 產品開發
 風險管理
 欺詐分析
 現貨交易
 客戶細分
 資產組合
 消費借貸
FINTECH人工智慧:技術瓶頸
 Hadoop
 Pig / Hive
 NoSQL Data Store
 MPP Databases
 Real-Time
FINTECH人工智慧:技術瓶頸
 Open R
 Python
 MATLAB
 SPSS
 SAS
FUTURE SCOPE & TOOLS
技術超複雜
Scalability
Central
Hadoop
Ceph
Sphere
Cassandra
Spark
Machine
Learning
Scikit-Learn
Mahout
WEKA
MLBase
Statistician
Old House
R
RapidMiner
Panda
Data Clean
Wasteland
Pig
Hive
Cascading
Talend
Vizualization
County
D3
Crossfilter
SQL
Colunnar
Republic
InfiniDB
LucidDB
Impala
NoSQL-
Slavia
Elastic
Search
SOLR
MongoDB
Riak
Membase
MERIT = TIME + ROI
人員訓練
 18 months
 人員招募
 6 months
 選擇技術
 6 months~以上
 上線工作
 6 months~以上
ROI 投資報酬率
 資料驅動(Data Driven)
 A/B測試
 使用Excel
 建立團隊
機器學習:SPARK
 https://spark.apache.org/
 Apache 的開源機器學習平台
 機器學習工具整合齊全
 支援程式語言:Scala、Python
 系統需求:
 作業系統必須為Windows或Linux
 執行於Java Virtual Machine上
機器學習:SMACK ARCHITECTURE
 Spark
 叢集運算平台
 Mesos
 叢集資源管理
 Akka
 平行處理模組
 Cassandra
 NoSQL資料庫系統
 Kafka
 高吞吐的訊息中介軟體
深度學習:TENSORFLOW
 https://www.tensorflow.org/
 Google的開源機器學習平台
 使用Graph進行數值演算
 支援程式語言:Python、C++
 系統需求:
 作業系統為Windows或Linux
 Python 2.7 或 3.3
分析工具
函式庫
Spark
TensorFlow
從頭開始寫
彈性
技術門檻
把資料整理好呼叫API 由工具平台計算 自己寫微積分計算
低
低 高
高
CONCLUSION
結論
CONCLUSION
 巨大潛力
 大數據和機器學習
 認識這個潛力
 需要數學知識
 Think outside the box
 有效地支持欺詐/錯誤檢測
 準確的市場分析
 "機器學習"就像魔術
 可以得到任何問題的答案
52

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Machine Leaning & Fintech 機器學習與金融科技

Editor's Notes

  1. 由多達數百萬個叢集(Cluster)所組成,每個叢集有近數千台用來儲存資料的伺服器,被稱為「節點」(Node)。其中包括主伺服器(Master Node)與從伺服器(Slave Node)。 每一份大型檔案儲存進來時,都會被切割成一個個的資料塊 (Block),並同時將每個資料塊複製成多份、放在從伺服器上保管。當某台伺服器出問題時、導致資料塊遺失或遭破壞時,主伺服器就會在其他從伺服器上尋找副本複製一個新的版本,維持每一個資料塊都備有好幾份的狀態。 簡單來說, Hadoop 預設的想法是所有的Node 都有機會壞掉,所以會用大量備份的方式預防資料發生問題。另一方面,儲存在該系統上的資料雖然相當龐大、又被分散到數個不同的伺服器,但透過特殊技術,當檔案被讀取時,看起來仍會是連續的資料,使用者不會察覺資料是零碎的被切割儲存起來。
  2. 資料清整(Data Cleaning) 機器既然得從海量資料中挖掘出規律,「乾淨」的數據在分析時便非常地關鍵。在分析的一開始時,得處理資料的格式不一致、缺失值、無效值等異常狀況,並視資料分佈狀態,決定如何填入資料,或移除欄位,確保不把錯誤和偏差的資料帶入到資料分析的過程中去 訓練資料(Training Data) 特徵萃取(Feature Extraction) 是從資料中挖出可以用的特徵,比如每個會員的性別、年齡、消費金額等;再把特徵量化、如性別可以變成0或1,如此以來每個會員都可以變成一個多維度的向量 特徵選擇(Feature Selection) 根據機器學習模型學習的結果,去看什麼樣的特稱是比較重要的。若是要分析潛在客戶的話,那麼該客戶的消費頻率、歷年消費金額…等可能都是比較重要的特徵,而性別和年齡的影響可能便不會那麼顯著。藉由逐步測試、或使用演算法篩選特徵,找出最恰當的特徵組合讓學習的效果最好 資料標籤(Label) 模型選取(Model Selection) 資料科學家會根據所要解決的問題、擁有的資料類型和過適化等情況進行衡量評估,選擇性能合適的機器學習模型。由於機器學習模型的數量與方法非常多,包括了神經網路、隨機森林、SVM、決策樹、集群….。以下僅將機器學習模型依據幾種常見的問題類別進行介紹。
  3. 正向反饋(Positive Reward) 負向反饋(Negative Reward) 「明天的世界只和今天有關、和昨天無關了。」(The future is independent of the past given the present.) 多拉桿吃角子老虎機(Multi-armed Bandit) 最重要的目標只有探索(Explore)和採集(Exploit)的平衡
  4. y = \frac{1}{ 1+e^{- ( w_{1} x_{1} + w_{2}x_{2}+w_{b} ) }} & n_{in} = w_{1} x_{1} + w_{2}x_{2}+w_{b} \\ & n_{out} = \frac{1}{1+e^{-n_{in}}}