數據特性 vs AI產品設計與實作

數據特性
vs
AI產品設計與實作
陳彥呈博士 Albert Y. C. Chen, Ph.D.
http://slideshare.net/albertycchen/
albert.y.c.chen@gmail.com

陳彥呈博士 Albert Y. C. Chen, Ph.D.
● 現職
○ 美國 OfferUp 主任資料科學家 (美國最大移動端二手電商 , 估值 >$1B)
✓ 架構企業數位神經、自動反應，提昇用戶體驗、協助優化營運
● 經歷
○ Clobotics US 總經理 (風電 & 零售, 估值 $60M → $150M, 2018--2020)
○ Viscovery 研發副總 (廣告 & 零售, 估值$15M → $30M, 2015--2018)
○ Siemens、GE、Tandent Vision Science、Nervve Technologies
○ 英、美、中、日、台，多間公司 AI顧問
○ 台灣人工智慧學校 (台北1-3期, 新竹1期, 台中1期) 教師
○ 科技部、經濟部 AI計畫審查委員；工研院、資策會計畫顧問
○ 台大駭客松、台大創客松、教育部創業競賽、廣達創業競賽評審、冠軍隊導師
● 學歷
○ 美國紐約州立大學水牛城分校博士 (主攻電腦視覺、機器學習 )
○ 國立清華大學資工學士

WHY?
● 年輕時，朋友約就衝了
● 現在我得先問足 “why”
○ Why?
○ Why not?
○ Why us?
○ Why now?
● 想清楚大戰略，是領導人最
重要的事情。
○ 前仆後繼仍無法攻克目標，不
是執行力有問題，而是戰略有
問題。
○ 別用戰術上的勤奮去掩飾你
戰略上的懶惰。

產品的數據戰略
● 由產品衍生的數據，能源源不絕的驅動產品成長，使其更有競爭力；在制定產品
戰略時，若不思考數據戰略，則枉然。
○ 數據特性佳，未必適合做成產品；在此當下，也未必是個適合進場的時機。
○ 數據特性差，未必不能做，端視進場者有多少競爭力。
● 有些時候，不管數據戰略怎麼變，一些實作原則與架構是普遍通用的。
● 此分享：
○ 先討論各種數據特性，再討論不同數據特性做產品時的關鍵點，與現行市場競爭情況。
○ 以「欲創造競爭力之產品」為限；研究、專案、非營利，不在討論範圍內。

數據生而不平等
更新頻率、獲取標註之難易度、價值、衍生模型之移轉性、衍生模型之容錯度皆不同

數據循環速度：高速循環 vs 低速循環
由數據訓練出模型後，需要過多長時間，才能驗證此模型的好壞？
企業數據週期
數位廣告成效評估即時--天
行銷策略評估週--月
業務成效評估季--年
營運成效評估年
研發成效評估年--十年
融資增資數據年--十年
人臉數據週期
手機人臉解鎖即時
門禁系統人臉識別即時
社交平台人臉識別天--週
警政系統人臉識別週--月
美顏美籹效果反饋月--季
語音識別數據週期
機器人客服即時--天
數位個人助理即時--天
智慧家電語音助理即時--天
影音平台自動字幕月--年

數據成本：廉價易得 vs 昂貴稀有
● 結構化數據 < 非結構化數據
● 線上數據 < 線下數據
● 簡單標註 < 詳細標註
● 應用自然產生標註 < 另外找人工標註
● 單訊號源數據 < 多重訊號源+多感應器之標註數據
↖ 某些人臉應用
，需要精細標註
到上百個點
← Google 自駕
車的數據，需多
感測器融合，標
註費用極為昂貴
https://medium.com/syncedreview/data-annotation-the-billion-dollar-business-behind-ai-breakthroughs-d929b0a50d23

數據飛輪 (數據循環速度 + 數據成本)：
流量自然推動 vs 必須不斷施力
● Amazon的「流量飛輪」：
○ 持續施力，即便初速緩慢，但一遍遍累積，終會形成極大的前進慣性
● AI模型的「數據飛輪」：
○ 數據獲取速度、數據標註速度在不同應用場景上有極大的先天性差異
數據
優勢
AI
優勢
商業
優勢
技術數據來源數據標註數據飛輪速度
人臉識別 FB, IG用戶自行上傳的生
活照, 自動識別親友
用戶自行修正識
別錯誤的人臉
★★★★★
人臉識別中國各城鎮監視系統公安手動修正 ★★★★
美顏 app使用者需另外找人標註 ★★
虛擬試妝 app使用者需另外找人標註 ★★
數據飛輪
客戶體
驗更佳
更大
流量
更多
賣家
多選擇
更便利
Amazon流量飛輪

數據價值
數據「頻率」與「成本」和「數據價值」未必相關。擁有以下特色的數據更有價值：
https://themerkle.com/how-much-is-your-personal-data-worth/
● 和「營收」與「獲利」越直接相關的數據
越有價值。
● 越能幫助驅動「數據飛輪」的數據越有
價值。
● 越即時的數據越有價值。
● 越能形成競爭壁壘的數據越有價值。
然而，稀缺、限定特定應用的數據，並非數
據價值的保證。

模型：移轉性高 vs 移轉性低
● 有些模型，不管數據怎麼換，表現並不會受太大影響
○ 過往消費記錄 vs 未來購買力
○ 車輛偵測、人臉偵測、
○ 語音識別、聊天機器人
○ OCR、機器翻譯
○ 人臉識別（不是直接學單個人臉，而是已預先學會所有人臉的 embedding）
● 有些模型，數據一換，就完全不適用了
○ 推薦系統
○ 商品識別
○ 醫療影像
○ 自駕車
○ 不當訊息過濾
○ 工業檢測

● 模型通常是越準確越好；有時因其他限制，不得不妥協，尋找配套
○ 樣本量限制：例如，一人一照的人臉訓練樣本。
○ 變異性太大：商品樣式、種類繁多，即便品牌商都沒有一個完整、正確的資料庫。
○ 噪訊比太高：大量無法有效標註的資料，或有大量歧義的標註資料。
○ 樣本分布一直變：例如，二手平台的違規商品與訊息。
○ 應用場景限制：例如，瑕疵檢測；先檢出，才能訓練。
● 有些應用，容錯率天生就比就高
○ 美顏、廣告、商品推薦
● 容錯度低，但準確度又低時的常見配套
○ 於精確度與召回率之間做取捨，人工處理漏檢或誤判。
○ 調整產品與商業模式，讓Beta版先行，採回數據：如 Tesla自駕。
○ 調整模型分類類別；並非所有類別都能輕易訓練出二值分類器。
模型：容錯度高 vs 容錯度低

在同樣準確度 (accuracy) 要求下，
精確度 (precision) vs 召回率 (recall)
● 相同準確度下，可調整模型特性：
○ 多錯一點但不要漏掉（高召回率）
○ 少錯一點但可能會漏掉（高精確度）
● 有些應用，需要高精確度：
○ 相機之人臉偵測
○ 手機、門禁系統之人臉解鎖
● 有些應用，需要高召回率：
○ 智慧安防之人臉搜尋
○ 訊息過濾（須輔以人工複檢機制）
○ 醫療影像之病症識別（須輔以人工複檢機制）
● 有些應用，會故意參雜更多樣性的內容：
○ 搜尋引擎，電商商品搜尋、推薦

代表性應用：數據 vs 模型特性
模型數據高價 + 低頻高價 + 高頻低價 + 低頻低價 + 高頻
移轉性高 +
容錯率高
美顏人臉偵測智慧CRM [3] 文字情感分析、網
路廣告推薦 [5]
移轉性高 +
容錯率低
OCR [6] 、語音識
別 [6]
人臉識別機器翻譯 [6] 聊天機器人 [5]
移轉性低 +
容錯率高
虛擬試妝智慧安防商品推薦 [4] 電商產品搜尋、新
聞推薦 [4]
移轉性低 +
容錯率低
智慧工安、醫療影
像 [1]、自駕車 [1]
工業檢測、無人商
店 [2]
企業營運數據分析
[3]
訊息過濾
顏色僅代表從數據與模型的要求高低，來區分不同應用的入門門檻（綠低紅高），不代表目前競爭情況。

[1] 取回反饋數據代價高，要先預留接口
● 特色：
○ 數據更新頻率雖不高，但難取回。模型對數據相依性高，且模型容錯率低。
● 代表性應用：自駕車
○ 在產品設計之初，就得想好如何取回標註過的數據。
○ 例如：Tesla先讓車子上路，捕捉數據，再同步完善模型。
● 代表性應用：醫療影像
○ 需和醫療院所相關人員有深度合作，才有機會取得有限的、標註過的數據。
○ 模型訓練好後，要驗證、取回標註過的數據，週期很長。
● 小結：
○ 設計好數據取回的方式，比優化數據擷取流程重要。
○ 此類應用，要由第三方提供服務較困難；但由數據擁有方自行研發，對模型要求度高，較難用普
通工具自行建模。

[2] 數據難取又易變，要先打通數據迭代的任督二脈
● 特色：
○ 數據取得成本高、更新頻率高，且模型對數據相依性高，需耗費大量資源
才能做出第一版產品。
● 代表性應用：無人商店
○ 可口可樂在美國就有 1萬5千個SKU，每季商品推陳出新。
○ 在做第一版產品時，就得同時設計並佈署以下機制：數據取回、抽樣、標
註、自動用新數據去更新模型，並自動檢驗新模型好壞。如此，才能跟上數
據的快速變動。
● 小結：
○ 做這事情之前，要想清楚，決策者不能有「先做做看再評估」的心態。
○ 不是不能做，而是需要相對應資源才能打這仗。計畫管理，首重目標與資
源的匹配。資源不足卻硬幹，只會兵敗如山倒。
○ 此應用，建議大量採用雲平台已提供之架構，避免重刻工具與零件。

[3] 數據成堆又雜亂，要先建好數據清理capacity
● 特色：
○ 企業很容易自行用各種 SQL、noSQL資料庫記錄數據。每家企業記錄的數據內容與格式皆不相
同；即便是單一企業，資料庫的欄位，未必都正確、完整。
○ 即便是採用第三方系統，由於選擇眾多，不同系統間數據兼容性常是個問題。
● 代表性應用：企業營運數據分析
○ 從數據中挖出有用資訊的需求雖頻繁又大量，但常是一次性的需求，很難做成標準化的產品。
○ 過往偶有成功案例，僅限做部分工具或非常侷限的數據。
● 小結：
○ 採用第三方方案時，由於導數據、清理數據費時，多半只能處理到「表層」數據、離「錢」最近的數
據（如CRM）。
○ 欲處理分析更深層營運數據，通常需自建團隊處理；常見金字塔型的團隊（人數由多至寡）： BI
(Business Intelligence) 分析師 → BI 工程師 → DW (Data Warehouse) /DP (Data Platform) 工
程師 → 數據科學家

[4] 有些事，數據擁有者做得輕鬆，外部供應商做得艱辛
● 特色：
○ 推薦系統的數據，是 B2C生意的命門，一年動輒上億筆數據。
○ 所用的模型不複雜；大如 Amazon、AirBnB，仍重度倚賴算法相對簡單的 collaborative filtering做
推薦、gradient boosting tree做搜尋。
○ 關鍵在於數據：數據越乾淨、大量、完整，數據飛輪轉得越快，推薦與搜尋系統就會越好。
● 代表應用：電商商品搜尋、推薦
○ 數據擁有者的內部數據團隊，可以玩得很開心。
○ 外部供應商要賣進去，要在產品與商務模式上都有所突破。
● 小結：
○ 人口大的市場（>6000萬人），數據擁有者，多已自行推動數據飛輪。
○ 人口小的市場，數據擁有者常未充分利用；自行開發效果有限，外部解決方案不能搔到癢處。

[5] 數據充足又低價？先進者已持續推動飛輪多時！
● 特色：
○ 天下沒有白吃的午餐；數據充足又低價，完全就是比推動數據飛輪的速度！
● 代表應用：數位廣告推薦
○ 2015年之前，數位廣告投放優化，蔚為顯學；有諸多新創，前仆後繼的進入此市場。然而，沒人能
像Google與Facebook般收集到那麼多使用者、那麼多面向的資料。至 2017時，數位廣告投放市
場已被Google與Facebook兩家寡佔。
● 小結
○ 後進者，是否能後發先至，端視其推動數據飛輪的速度。 Google兩週更新搜尋引擎一次，後進者
若能做到7天一次，則有望於一半時間追上。當先進者已不只於單一領域累積使用者資料，而於
諸多應用上累積，則難追矣。
○ 然，若使用者習慣改變，如：年輕人由 Facebook → Instagram → Discord，則後進者仍有機會更
快速累積、創造優勢。

[6] 即便是低頻數據，也要追求數據積累、模型迭代
● 特色
○ 有些乍聽之下很古老、成熟、改變緩慢的應用，實際上仍在不斷演進，同樣要競爭數據積累與迭
代的速度。
● 代表應用：機器翻譯
○ IBM投入早，但未形成數據閉環，未能有效推動模型迭代，故已被後進者超越並遠拋在後。
○ Google在各語言間的翻譯支援最齊全，但後進者如百度、騰訊，在特定語言間已並駕齊驅。

因應數據特性設計產品，並架構合宜數據系統
● 不變的是：快！快！快！
1. 收到新數據，花多久才能標註完？
2. 數據標註好後，花多久才能更新數據集？
3. 數據集有做版本控制嘛？
4. 如何決定新數據訓練的新模型可以上線？
● 改變的是：如何快？
1. 如何加快數據收集*？
2. 如何加快數據標註？
3. 如何加速數據集更新？
4. 如何加速模型訊訓練？
5. 如何加速模型驗證？
6. 如何加速模型上線？
*有些數據不能離開用戶端，得用federated learning，不在此次討論範圍內。

1. 如何加快數據收集？
● 曾經誤花很多時間進行各種SQL、NoSQL資料庫在不同性質數據間寫入與讀取
速度的比較。
○ 每種方案，都還有進一步優化，建立 index、cache的方法，很難有個相同的比較基準。
○ 標準化寫入/讀取的效能差異不大。關鍵差異在於從海量數據（例如：從近半年內、數億筆記錄中
，排列出網路市集的店家，於促銷前 /促銷後的平均瀏覽、點擊、交易數據，並按地區排序），篩選
出符合條件數據的效能差異。。
● 能透過標準SQL Query，自動調節資源，按用量計費的雲端托管服務（cloud
managed service），能幫我們更快架起數據架構，讓我們加速到下一步。
○ Snow Flake, AWS redshift, Azure SQL Data Warehouse, Google BigQuery 各有千秋。
○ 選定一個就持續用下去；同樣是 SQL query，不同平台的Query語法支援差異太大，不值得搬來
搬去。同時，也不建議在「數據收集 → 模型上線」的各環節間，於不同平台跳來跳去。

2. 如何加快數據標註？
● 架構選擇：
○ 標註工具的完整度與易用度
○ 能輕易的從雲端平台導入導出數據
○ 能進行採樣與標註結果管理
○ 能輕易的整合外包標註平台
○ 進行任務分配與標註者管理
● 標註任務設計：
○ 以一秒完成一個任務為目標。
○ 不論標得多細心，一定會有標錯的樣本。標
註任務應設計得越簡單越好，但同一樣本能
有多次標記。
● 方案比較
○ AWS的數據標註工具、外包系統整合、外包
服務市集，較MS Azure與GCP完整。

3. 如何加速數據集更新？
● 標好的數據，一定要能自動驗證、自動更新到數據集
○ 數據標註一定會有錯，越能自動挑出需要複審的樣本，則數據集更新越快。
○ 若數據分布於一embedding上，只需找出和已驗證過的數據差異大者，即能有效挑出需要複審
的標註。若非，則用常見 EDA方式半自動挑選。
● 數據集一定要做版本管理
○ 數據集一定會有錯誤標註，一定需要回頭修正。
○ 數據集有做版本控制，才能自動加入新標好的數據，免去手動操作。
○ Git-LFS、DVC、Pachyderm各有優點。Pachyderm適合需要重度優化數據工作流者，但同時提供
數據版本控制。若僅需管理數據版本， DVC易上手且能輕易整合各雲存儲（ S3、Azure Storage、
GCS）。
● 分類索引，不可能一開始就定好；要能處理「不同數據集使用不同分類索引」
○ 為了標註速度，標註時所用的索引，不一定會是訓練模型的索引。
○ 訓練模型時，為了提昇效能，常需將多分類合併，或是將單分類分開。每個模型用的數據索引通
常都不同。

4. 如何加速模型訓練？
● 不要為了省錢而買GPU做開發與訓練
○ 若為開發：線下GPU再怎麼便宜，也不比免費的雲服務便宜；若工程師用不慣，歡迎 BYOM
○ 若為訓練：線下GPU最多不過4顆、8顆。資源若一人獨佔，則利用率總是比預期低。若多人共用，
沒有排程機制，會發生資源衝突；有排程機制但資源有限時，訓練週期會拉得很長。
● 模型要能多GPU/TPU進行訓練
○ 一個模型，若未經過百組的 hyperparameter tuning，每一組的hyperparameter，若未經五次時次
以上的反覆驗證，其效能提昇或穩定性，都不足為信。訓練架構的設計，應以在 24小時內完成這
數百次的訓練為目標下去設計。為此，訓練程式一定要能支援多 GPU/TPU。
● 系統要能手動/自動增加運算資源
○ 能利用雲平台托管服務，自動調升多 GPU/TPU訓練，即便單價稍貴，也是值得的。
○ 若欲自建團隊共用的 auto-scaling training script，如GCP Burst Training，需確保團隊夠多人會
用，且維護成本低於自建 auto-scaling機制省下的錢。

5. 如何加速模型驗證？ML團隊的好習慣非常重要！
● 應記錄模型訓練時的多次分數分佈：
○ 每一個模型的每一組 hyperparameter，不只記錄validation set上最好的一次precision / recall /
accuracy分數，應該要將訓練多次的分數分佈記錄下來，算出平均與標準差。
○ 如此，才能知道新模型的分數提昇是否具有 statistical significance。
● 應建立「移動標靶」的衡量機制：
○ 會持續改變的測試集， ML團隊通常不習慣也很排斥，但這是必要之惡。
○ 會持續改變的測試集，易使新模型表現時好時壞；決定新模型是否上線，同樣要看新模型表現與
舊模型相比是具有統計上的顯著差異。
● 模型要有pre-production/staging階段測試，要做版本控制：
○ 模型部屬在跟production相同環境，但僅抽樣輸入、抽樣檢驗輸出（有些應用，需避免新模型上
production做A/B test），自動記錄一兩週的分數。若分數提昇超過一定標準，則安排其自動上
線。
○ 自動驗證上線之模型，若於上線後收到超過一定比例的負面反饋，需有模型版本回溯機制。

6. 如何加速模型上線與迭代？
● 太早優化是萬惡之源 (The Art of Computer Programming, Dr. Donald Knuth)
○ 先不要花太多時間糾結於模型的大小、推論的速度、或是模型推論所用的服務與架構。
● 多利用雲端托管服務，自動調節運算資源，減少dev/ops成本
○ 若使用標準模型，且推論前後所需做的特殊處理甚少，建議直接將模型轉換成 ONNX或其他標
準格式，利用SageMaker Inference、Azure Machine Learning、Google Cloud Inference。
○ 若用自定義模型，或需額外進行前置 /後置處理，可用雲端托管服務部屬 Docker container。
Amazon ECR、Azure Container Registry、Google Cloud Container Registry皆能輕易整合。
○ 若選擇用Docker，除非必要（如：影片拆幀後直接大小暴增百倍），盡量不要把推論以外的功能整
合進Docker裡，以利日後模型之迭代。若有必要做額外處理，宜善用雲平台各種托管運算，如
AWS Lambda、Azure Functions、Google Cloud Function，可大幅減少dev/ops。
● 模型上線後，新數據與推論結果一定要取回
○ 莫讓ops團隊一直抱怨模型， AI團隊卻一直堅持模型沒問題，要以實際上線抽檢錯誤為準。若上
線後數據改變，沒理由模型不重新訓練。

這些事情，以傳統的團隊分工，會很難推動
● 要打通數據的任督二脈，涉及AI團隊、前後端、QA、PM。在一個分工明確、個有
利害關係的組織，不是找個AI經理或總監，就能推動數據飛輪的。即便空降了AI
VP、CTO，在沒有戰功前，會很難服眾。
● 最尷尬的是，推動數據飛輪對技術主管的KPI少有直接幫助。除非CEO或董事長
有清楚的認知，不然技術主管只會淪落為人作嫁，讓業務與營運單位徒增績效，
數據單位看起來只是為企業徒增成本。
● 推動數據飛輪和推動AI一樣，需要組織內從上而下、橫跨多個單位，都有高度共
識、相同認知；這也正是台灣人工智慧學校創校的初衷。

不要為了省錢而浪費時間；最珍貴的，就是時間。
● 企業的壽命比人還短
○ 台灣創業，平均只存活 4年。
○ 美國極為成功、被選入 S&P 500指數的上市公司，平均只存活 18年。
● 不要所託非人
○ 不是找個顧問評估，再找幾個年輕人試一試，做幾年不成功再修正。
○ 一試不成，就落後競爭對手很遠了。
● 不要閉門造車
○ 不要花一年半載的自建機房、自己設計架構、自己寫數據、訓練、上線系統。
○ 這些表面績效最容易騙自己、騙主管，讓人誤以為有在做事，但對達成目標一點幫助也沒有。
● 不要因小失大
○ 有些雲平台比較便宜，但托管服務不全備，使用起來功能東缺西缺，屢遇預期外的錯誤。
○ 即便有很強的團隊能幫忙填補平台與架構上的缺失，團隊時間寶貴，應花在更重要的事情上。

一切，都還是以客為尊
● 以客為尊，在企業裡很容易被績效蓋過，容易在執行時被忽略、遺忘。
● 企業在推動數位化、AI化時，容易訂出疏遠消費者的錯誤戰略
○ 過度用語音、聊天機器人取代真人客戶服務。
○ 演算法反應過快、大幅度調整尖峰時段費率。
○ 廣告或商品推薦系統過度個人化，讓客戶感受到隱私受到侵犯。
○ 金融、社交、電商的防詐騙系統過度敏感，導致許多正常用戶無法正常操作。
● 在團隊執行戰術時，也有很多坑，會疏遠消費者
○ 訂了錯誤的KPI：該優化召回率＋複檢，卻誤優化精確率
○ 模型更新時，未建立完整的配套，直接做 A/B testing

數據特性 vs AI產品設計與實作

Recommended

Recommended

More Related Content

Similar to 數據特性 vs AI產品設計與實作

Similar to 數據特性 vs AI產品設計與實作 (20)

More from Albert Y. C. Chen

More from Albert Y. C. Chen (18)

數據特性 vs AI產品設計與實作