SlideShare a Scribd company logo
1 of 53
Download to read offline
Honey's Data Dinner #8
資料科學實用技術、工具與實例分享
吳君孝(Shaw Wu)
shaldrem@gmail.com
2016/07/13
大綱
資料
科學
架
構
分析
工具
視覺
工具
生活
應用
資料科學三構面
工程 分析
領域
Beehive的資料科學三構面
 架構-解決方案
通常有整合式架構或是解決方案的都要錢… 還不見得好用…
EMC的Pivotal HD
IBM System G
資料來源:Shaw Wu整理,2015年
ORACLE的ENDECA
資料來源:Shaw Wu整理,2015年
Google Fusion Table
資料來源:Shaw Wu整理,2015年
MicroStrategy
10 資料來源:Shaw Wu整理,2015年
Tableau
Tableau 將是未來資料視覺化軟體的第一把交椅
但是 Tableau 絕對不是資料分析軟體!
資料來源:Shaw Wu整理,2015年
問卷分析的視覺化也可以用Tableau
資料來源:Shaw Wu,2016年
 分析軟體
• Weka
• Python
• Google Cloud Vision
• R
Weka
Copyright: Martin Kramer (mkramer@wxs.nl)
WEKA的全名是懷卡托智慧分析環境(Waikato Environment for
Knowledge Analysis),有趣的是,該軟體的縮寫WEKA也是紐西蘭
獨有的一種鳥名,而WEKA的主要開發者同時恰好來自紐西蘭的the
University of Waikato
• WEKA作為一個公開的資料採擷工作平台,集合了大量能承擔
資料採擷任務的機器學習演算法,包括對資料進行預處理、分
類、回歸、聚類、關聯規則以及在新的互動式介面上的視覺化。
• 免費,非商業化
• 基於JAVA環境下open source的機器學習(Machine
learning)以及資料探勘(Data Mining)軟體
• 它和它的原始程式碼可在官方網站下載
資料來源:Shaw Wu整理,2016年
2015 NBA Shot也可以用Python分析
資料來源:Shaw Wu整理,2015年
2016 NBA Shot也可以用Tableua畫圖
Google雲端視覺分析服務Cloud Vision
Cloud Vision以機器學習模型理解圖片內容,快
速將圖片歸類,並偵測每張圖片中的物件與人臉,
或是讀取照片中的文字,開發者可藉由Cloud
Vision API將視覺分析功能整合在各種應用中。
服務收費已出爐,2016年3月推出正式服務。
連結網址↑
資料來源:Shaw Wu整理,ithome,2016年
Google雲端視覺分析服務Cloud Vision
資料來源:Shaw Wu,2016年
您的免費試用額度還有 $300.00,免費試用期還剩下 60 天。
申請完後結果:(這是要收費的~)
Google Cloud Vision API 使用流程
先搞到一張圖片
轉成Base-64
呼叫API
支援JAVA、Python
回傳結果取得
判斷以標籤結果回傳
資料來源:Shaw Wu,2016年
Google Cloud Vision的實驗
Label Detection
我挑了張我老婆跟草尼瑪的合照
我期望能夠由照片中辨識出:
• 我老婆(pretty woman)
• 草尼瑪(alpaca)
結果
1.mammal(哺乳動物) 相似度:0.95
2.animal(動物) 相似度:0.93
3.alpaca(羊駝) 相似度:0.92
4.camel like mammal
(駱駝像哺乳動物) 相似度:0.91
5.vertebrate(脊椎動物) 相似度:0.88
資料來源:Shaw Wu,2016年3月23日
R 與 R Studio
資料來源:Shaw Wu整理,2015年
• 這個FACEBOOK社團都在聊些甚麼?
一個簡單的範例引導
從一個簡單的需求開始…
如果我想知道五月天的FaceBook社團
都在聊些甚麼?
我可以
一篇一篇慢慢看
透過文本分析
快速給我一些關鍵字概況
資料來源:Shaw Wu,2015年
資料收集:尋找你的資料來源
Example:Facebook Graph API
Your Analysis Data
資料來源:Shaw Wu,2015年
資料處理:清洗與轉置你的資料
資料來源:Shaw Wu,2015年
資料分析:R的文本分析示範
資料來源:Shaw Wu,2015年
資料視覺化:美與醜
資料來源:Shaw Wu,2015年
調校分析模型的重要性
調校前,可能錯把五月天當成五月(花)
調校後,原來五月天就是五月天無誤
資料來源:Shaw Wu,2015年
 視覺工具
• Data Visualization套件大集合
• AMCHARTS
• HighCharts
• Plotly
• D3.js
Data Visualization套件大集合
很好的視覺化想法來源,但不要妄想可以直接拿來無縫套用…
資料來源:Shaw Wu整理,2015年
線上視覺化圖表工具:AMCHARTS
• 雖然我都自己寫程式畫圖
• 但最起碼它不用錢,還不用寫程式,參考看看
資料來源:Shaw Wu整理,2015年
如果你是工程師,這東西絕對超棒的!
資料來源:Shaw Wu整理,2015年
寶寶成長變化自己動手做
厭倦了,一成不變的圖表嗎?
單純的折線互動圖表加上生動活潑的照片後,也是有一番不同的風味呢!
資料來源:Shaw Wu,2016年
可與多種語言串接的視覺化平台:plotly
• 提供了R、Python、Matlab等程式語言串接圖表方式
• 強大的圖表互動效果,實在是太開心了
講者
推薦
資料來源:Shaw Wu整理,2015年
資料科學案例-河川水質汙染預測
運用行政院環保署環境水質監測數據,採
河川測站22年(since 1993)的數據資料,
進行分析研究
以過去水質汙染指數資料,採時間序
列分析方法,dive and conquer自
我回歸模型,建立水質汙染預測模型
採資料科學方法論,以分析驅動設計,
並運用先進HTML5等相關技術,打
造視覺化分析結果與可互動之模型
未來一年預測結果:夏季河川水質汙染指
數較高;冬季河川汙染指數較低;未來可
做為決策判斷、預警、資源配置相關參考
資料
來源
分析
模型
圖資
互動
專家
闡釋
越來越熱門的D3.js
資料來源:Shaw Wu整理,2015年
線上也可以動手做D3.js
資料來源:Shaw Wu整理,2015年
總統辯論統計 一張圖看朱蔡互咬次數
首場總統候選人電視辯論會27日登場,三黨總
統候選人激烈交鋒,尤其朱蔡兩人攻防火花四
射。我們統計整場辯論會中,三位候選人提及
對手及其他政治人物名字的次數,以蔡英文被
提及65次最多,其中54次是由朱立倫提到,顯
示朱對蔡攻擊最猛烈,不斷對蔡提出反詰。
心血來潮就用D3.js也來畫一張
當時一個簡單的想法:
三位候選人的討論情況與各政治要角的被討論次數,運用和弦圖
(Chord Chart)的畫法來表達是不是會感到比較簡潔有力呢?
畫完後的發現:
(1)被討論次數最多的是蔡英文
(2)朱蔡互相交火的次數之頻繁
(3)宋楚瑜的邊緣化
(4)陳水扁其他兩黨被抓出來鞭屍
(5)蔡英文愛提馬英九
(6)只有朱立倫在提李登輝
 資料科學生活應用
• 顧問服務也是可以善用資料科學來協助計畫發展的
• 婚禮也是可以很資料科學的
作計劃也是可以善用資料科學的
41
計畫發展專用的質化評估分析工具
42
© Shaw Wu ,2015
婚禮撥放器的資料科學生活化應用
為了能夠拉近與賓客間的距離
讓婚禮不再是只有新郎與新娘
而是創造出有大家共同回憶的空間
一個空間共同體的概念
43
© Shaw Wu ,2015
婚禮撥放器的資料科學生活化應用
除了
文青
更要
資科
婚禮撥放器
44
© Shaw Wu ,2015
婚禮撥放器的資料科學生活化應用
45
© Shaw Wu ,2015
婚禮撥放器的資料科學生活化應用
• 你可能會覺得要拿到這些圖片很簡單?
• 從我自己的電腦裡一張一張整理去對應?
• 還是我會有他們所有的社群大頭照?
別忘了,除了我的,還有我老婆的…
46
© Shaw Wu ,2015
可是瑞凡… 我只有這個ㄟ…
姓名 暱稱 與新人關係 類別 祝福留言
溫瑞凡 瑞凡 男方 誰知道 祝你幸福...
Google問卷調查的資料
?網路上哪張照片是你?
47
© Shaw Wu ,2015
所以我做了兩件事情
• 最起碼要能判斷留言者的性別,給予圖像
• 連結起虛實關係,建立出真實人類與虛擬
帳號的對應,找到最有可能的圖像
48
© Shaw Wu ,2015
由姓名學出發建立性別判斷模型
這是文本分析的再應用
吳君孝
吳君如
男
女
50%50%
50%50% 100%
100%
訓練
字詞庫
未知性別
姓名丟入 性別分類
結果圖像
49
© Shaw Wu ,2015
從有限資料建立虛實帳號對應關係
真實世界人類
溫瑞凡
將真實世界有限資料,如
姓名、暱稱等,丟入虛擬
帳號關係建構模型
政治大學
交談紀錄
找出最有可能的帳號
取得
虛擬帳號
大頭照
連結
只是同名
依然存在有無法達到的限制性
但已經可以幫我Cover到45%的賓客
剩下的再用工人智慧就輕鬆多了
50
© Shaw Wu ,2015
婚禮網站當然也要來分析一下
行動版
網
頁
版
Beehive Data Group
蜂巢數據科技
產業推手
研究社群
學術單位
資料科學
聯盟
臉書社團:
粉絲專頁:
Q & A
Thanks For Your Listening

More Related Content

Viewers also liked

大數據的獲利模式
大數據的獲利模式大數據的獲利模式
大數據的獲利模式Chang Chiao Hui
 
大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)
大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)
大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)Amazon Web Services
 
Rough-set-based ADR signaling from SRS data with missing values
Rough-set-based ADR signaling from SRS data with missing valuesRough-set-based ADR signaling from SRS data with missing values
Rough-set-based ADR signaling from SRS data with missing valuesPhate334
 
期末專題說明
期末專題說明期末專題說明
期末專題說明Phate334
 
Lattice: A Cloud-Native Platform for Your Spring Applications
Lattice: A Cloud-Native Platform for Your Spring ApplicationsLattice: A Cloud-Native Platform for Your Spring Applications
Lattice: A Cloud-Native Platform for Your Spring ApplicationsMatt Stine
 
Agile Development with OSGi
Agile Development with OSGiAgile Development with OSGi
Agile Development with OSGiMatt Stine
 
Grid trading 28.09.2016
Grid trading 28.09.2016Grid trading 28.09.2016
Grid trading 28.09.2016Robert Gawron
 
平台經濟模式心得分享
平台經濟模式心得分享平台經濟模式心得分享
平台經濟模式心得分享建夆 陳
 
Gradle起步走: 以CLI Application為例 @ JCConf 2014
Gradle起步走: 以CLI Application為例 @ JCConf 2014Gradle起步走: 以CLI Application為例 @ JCConf 2014
Gradle起步走: 以CLI Application為例 @ JCConf 2014Chen-en Lu
 
Consumer Driven Contracts for microservices
Consumer Driven Contracts for microservicesConsumer Driven Contracts for microservices
Consumer Driven Contracts for microservicesReshmi Krishna
 
Reactive Fault Tolerant Programming with Hystrix and RxJava
Reactive Fault Tolerant Programming with Hystrix and RxJavaReactive Fault Tolerant Programming with Hystrix and RxJava
Reactive Fault Tolerant Programming with Hystrix and RxJavaMatt Stine
 
Building a Data-Driven Culture
Building a Data-Driven CultureBuilding a Data-Driven Culture
Building a Data-Driven CultureLucas Neo
 
从玩具到生产 - Cloud Foundry 上海峰会2015年
从玩具到生产 - Cloud Foundry 上海峰会2015年从玩具到生产 - Cloud Foundry 上海峰会2015年
从玩具到生产 - Cloud Foundry 上海峰会2015年Duncan Johnston-Watt
 
Operating and supporting HBase Clusters
Operating and supporting HBase ClustersOperating and supporting HBase Clusters
Operating and supporting HBase Clustersenissoz
 

Viewers also liked (17)

大數據的獲利模式
大數據的獲利模式大數據的獲利模式
大數據的獲利模式
 
大數據的基本概念(上)
大數據的基本概念(上)大數據的基本概念(上)
大數據的基本概念(上)
 
大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)
大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)
大數據運算媒體業案例分享 (Big Data Compute Case Sharing for Media Industry)
 
[系列活動] 機器學習速遊
[系列活動] 機器學習速遊[系列活動] 機器學習速遊
[系列活動] 機器學習速遊
 
Rough-set-based ADR signaling from SRS data with missing values
Rough-set-based ADR signaling from SRS data with missing valuesRough-set-based ADR signaling from SRS data with missing values
Rough-set-based ADR signaling from SRS data with missing values
 
期末專題說明
期末專題說明期末專題說明
期末專題說明
 
Lattice: A Cloud-Native Platform for Your Spring Applications
Lattice: A Cloud-Native Platform for Your Spring ApplicationsLattice: A Cloud-Native Platform for Your Spring Applications
Lattice: A Cloud-Native Platform for Your Spring Applications
 
Agile Development with OSGi
Agile Development with OSGiAgile Development with OSGi
Agile Development with OSGi
 
Grid trading 28.09.2016
Grid trading 28.09.2016Grid trading 28.09.2016
Grid trading 28.09.2016
 
平台經濟模式心得分享
平台經濟模式心得分享平台經濟模式心得分享
平台經濟模式心得分享
 
Gradle起步走: 以CLI Application為例 @ JCConf 2014
Gradle起步走: 以CLI Application為例 @ JCConf 2014Gradle起步走: 以CLI Application為例 @ JCConf 2014
Gradle起步走: 以CLI Application為例 @ JCConf 2014
 
Consumer Driven Contracts for microservices
Consumer Driven Contracts for microservicesConsumer Driven Contracts for microservices
Consumer Driven Contracts for microservices
 
Reactive Fault Tolerant Programming with Hystrix and RxJava
Reactive Fault Tolerant Programming with Hystrix and RxJavaReactive Fault Tolerant Programming with Hystrix and RxJava
Reactive Fault Tolerant Programming with Hystrix and RxJava
 
20160419 CCASA
20160419 CCASA20160419 CCASA
20160419 CCASA
 
Building a Data-Driven Culture
Building a Data-Driven CultureBuilding a Data-Driven Culture
Building a Data-Driven Culture
 
从玩具到生产 - Cloud Foundry 上海峰会2015年
从玩具到生产 - Cloud Foundry 上海峰会2015年从玩具到生产 - Cloud Foundry 上海峰会2015年
从玩具到生产 - Cloud Foundry 上海峰会2015年
 
Operating and supporting HBase Clusters
Operating and supporting HBase ClustersOperating and supporting HBase Clusters
Operating and supporting HBase Clusters
 

Similar to Honey's Data Dinner#8 資料科學實用技術、工具與實例分享

美团点评技术沙龙010-美团数据库自动化运维系统构建之路
美团点评技术沙龙010-美团数据库自动化运维系统构建之路美团点评技术沙龙010-美团数据库自动化运维系统构建之路
美团点评技术沙龙010-美团数据库自动化运维系统构建之路美团点评技术团队
 
PrimeHub by InfuseAI: product overview (Nov 2020)
PrimeHub by InfuseAI: product overview (Nov 2020)PrimeHub by InfuseAI: product overview (Nov 2020)
PrimeHub by InfuseAI: product overview (Nov 2020)Liang-Bin Hsueh
 
How to run an AI Project @pixnet
How to run an AI Project @pixnetHow to run an AI Project @pixnet
How to run an AI Project @pixnet晨揚 施
 
AI智慧服務推動經驗分享
AI智慧服務推動經驗分享AI智慧服務推動經驗分享
AI智慧服務推動經驗分享Albert Y. C. Chen
 
BI team - BO overview
BI team - BO overviewBI team - BO overview
BI team - BO overviewtasmc
 
人工智慧的使用體驗 AI時代的UI與創新
人工智慧的使用體驗 AI時代的UI與創新人工智慧的使用體驗 AI時代的UI與創新
人工智慧的使用體驗 AI時代的UI與創新William Shyu
 
參考講義展示版-丘祐瑋-20170617-機器學習python入門者課程
參考講義展示版-丘祐瑋-20170617-機器學習python入門者課程參考講義展示版-丘祐瑋-20170617-機器學習python入門者課程
參考講義展示版-丘祐瑋-20170617-機器學習python入門者課程Beckett Hsieh
 
iThome Modern Web 2018: 如何打造高效的機器學習平台
iThome Modern Web 2018: 如何打造高效的機器學習平台iThome Modern Web 2018: 如何打造高效的機器學習平台
iThome Modern Web 2018: 如何打造高效的機器學習平台Evan Lin
 
2020/8/15 AI學校:如何推動組織的 AI 團隊文化?(講者:彭其捷)
2020/8/15 AI學校:如何推動組織的 AI 團隊文化?(講者:彭其捷)2020/8/15 AI學校:如何推動組織的 AI 團隊文化?(講者:彭其捷)
2020/8/15 AI學校:如何推動組織的 AI 團隊文化?(講者:彭其捷)彭其捷 Jack
 
【台科大設計所】聊聊設計與數據思維|彭其捷
【台科大設計所】聊聊設計與數據思維|彭其捷【台科大設計所】聊聊設計與數據思維|彭其捷
【台科大設計所】聊聊設計與數據思維|彭其捷彭其捷 Jack
 
AI Service Integration - Education
AI Service Integration - EducationAI Service Integration - Education
AI Service Integration - EducationRyan Chung
 
亞太數位創業拉力營-創業智庫召集說明與介紹 2070715
亞太數位創業拉力營-創業智庫召集說明與介紹 2070715亞太數位創業拉力營-創業智庫召集說明與介紹 2070715
亞太數位創業拉力營-創業智庫召集說明與介紹 2070715張大明 Ta-Ming Chang
 
從 GPT 到 DALL·E:在 Azure 上實現 AI 的創造性應用
從 GPT 到 DALL·E:在 Azure 上實現 AI 的創造性應用從 GPT 到 DALL·E:在 Azure 上實現 AI 的創造性應用
從 GPT 到 DALL·E:在 Azure 上實現 AI 的創造性應用佳新 陳
 
BusinessObjects BI with HANA
BusinessObjects BI with HANABusinessObjects BI with HANA
BusinessObjects BI with HANAtasmc
 
互联网产品演进中的组织适应
互联网产品演进中的组织适应互联网产品演进中的组织适应
互联网产品演进中的组织适应AHAConference
 
Articulate studio 09 engage 中英翻譯無料教學簡報
Articulate studio 09 engage 中英翻譯無料教學簡報Articulate studio 09 engage 中英翻譯無料教學簡報
Articulate studio 09 engage 中英翻譯無料教學簡報yunjuli
 
SAP Explorer 使用教學手冊(上)
SAP Explorer 使用教學手冊(上)SAP Explorer 使用教學手冊(上)
SAP Explorer 使用教學手冊(上)tasmc
 
人臉辨識考勤系統Face Recognition Based Attendance System
人臉辨識考勤系統Face Recognition Based Attendance System人臉辨識考勤系統Face Recognition Based Attendance System
人臉辨識考勤系統Face Recognition Based Attendance SystemIttrainingIttraining
 
簡報/專案管理/數位行銷/文案 作品集
簡報/專案管理/數位行銷/文案 作品集簡報/專案管理/數位行銷/文案 作品集
簡報/專案管理/數位行銷/文案 作品集詠婕 杜
 

Similar to Honey's Data Dinner#8 資料科學實用技術、工具與實例分享 (20)

美团点评技术沙龙010-美团数据库自动化运维系统构建之路
美团点评技术沙龙010-美团数据库自动化运维系统构建之路美团点评技术沙龙010-美团数据库自动化运维系统构建之路
美团点评技术沙龙010-美团数据库自动化运维系统构建之路
 
PrimeHub by InfuseAI: product overview (Nov 2020)
PrimeHub by InfuseAI: product overview (Nov 2020)PrimeHub by InfuseAI: product overview (Nov 2020)
PrimeHub by InfuseAI: product overview (Nov 2020)
 
How to run an AI Project @pixnet
How to run an AI Project @pixnetHow to run an AI Project @pixnet
How to run an AI Project @pixnet
 
AI智慧服務推動經驗分享
AI智慧服務推動經驗分享AI智慧服務推動經驗分享
AI智慧服務推動經驗分享
 
BI team - BO overview
BI team - BO overviewBI team - BO overview
BI team - BO overview
 
Power BI x R
Power BI x RPower BI x R
Power BI x R
 
人工智慧的使用體驗 AI時代的UI與創新
人工智慧的使用體驗 AI時代的UI與創新人工智慧的使用體驗 AI時代的UI與創新
人工智慧的使用體驗 AI時代的UI與創新
 
參考講義展示版-丘祐瑋-20170617-機器學習python入門者課程
參考講義展示版-丘祐瑋-20170617-機器學習python入門者課程參考講義展示版-丘祐瑋-20170617-機器學習python入門者課程
參考講義展示版-丘祐瑋-20170617-機器學習python入門者課程
 
iThome Modern Web 2018: 如何打造高效的機器學習平台
iThome Modern Web 2018: 如何打造高效的機器學習平台iThome Modern Web 2018: 如何打造高效的機器學習平台
iThome Modern Web 2018: 如何打造高效的機器學習平台
 
2020/8/15 AI學校:如何推動組織的 AI 團隊文化?(講者:彭其捷)
2020/8/15 AI學校:如何推動組織的 AI 團隊文化?(講者:彭其捷)2020/8/15 AI學校:如何推動組織的 AI 團隊文化?(講者:彭其捷)
2020/8/15 AI學校:如何推動組織的 AI 團隊文化?(講者:彭其捷)
 
【台科大設計所】聊聊設計與數據思維|彭其捷
【台科大設計所】聊聊設計與數據思維|彭其捷【台科大設計所】聊聊設計與數據思維|彭其捷
【台科大設計所】聊聊設計與數據思維|彭其捷
 
AI Service Integration - Education
AI Service Integration - EducationAI Service Integration - Education
AI Service Integration - Education
 
亞太數位創業拉力營-創業智庫召集說明與介紹 2070715
亞太數位創業拉力營-創業智庫召集說明與介紹 2070715亞太數位創業拉力營-創業智庫召集說明與介紹 2070715
亞太數位創業拉力營-創業智庫召集說明與介紹 2070715
 
從 GPT 到 DALL·E:在 Azure 上實現 AI 的創造性應用
從 GPT 到 DALL·E:在 Azure 上實現 AI 的創造性應用從 GPT 到 DALL·E:在 Azure 上實現 AI 的創造性應用
從 GPT 到 DALL·E:在 Azure 上實現 AI 的創造性應用
 
BusinessObjects BI with HANA
BusinessObjects BI with HANABusinessObjects BI with HANA
BusinessObjects BI with HANA
 
互联网产品演进中的组织适应
互联网产品演进中的组织适应互联网产品演进中的组织适应
互联网产品演进中的组织适应
 
Articulate studio 09 engage 中英翻譯無料教學簡報
Articulate studio 09 engage 中英翻譯無料教學簡報Articulate studio 09 engage 中英翻譯無料教學簡報
Articulate studio 09 engage 中英翻譯無料教學簡報
 
SAP Explorer 使用教學手冊(上)
SAP Explorer 使用教學手冊(上)SAP Explorer 使用教學手冊(上)
SAP Explorer 使用教學手冊(上)
 
人臉辨識考勤系統Face Recognition Based Attendance System
人臉辨識考勤系統Face Recognition Based Attendance System人臉辨識考勤系統Face Recognition Based Attendance System
人臉辨識考勤系統Face Recognition Based Attendance System
 
簡報/專案管理/數位行銷/文案 作品集
簡報/專案管理/數位行銷/文案 作品集簡報/專案管理/數位行銷/文案 作品集
簡報/專案管理/數位行銷/文案 作品集
 

Honey's Data Dinner#8 資料科學實用技術、工具與實例分享