More Related Content Similar to 「105年度政府開放資料研究案」品質評鑑專家會議簡報 V1 20160317 (20) 「105年度政府開放資料研究案」品質評鑑專家會議簡報 V1 201603174. 貳、文獻探討-1
一、資料品質的定義-1
• 適於使用。
4
分類 面向
資料品質
本質上的資料品質
(Intrinsic Data Quality)
可信度(Believability)
正確性(Accuracy)
客觀性(Objectivity)
聲譽(Reputation)
資料與使用時機相關性的資料品質
(Contextual Data Quality)
具附加價值(Value-added)
相關性(Relevancy)
適時性(Timeliness)
完整性(Completeness)
適當的資料量(Appropriate amount of data)
資料呈現特性的資料品質
(Representational Data Quality)
可解釋性(Interpretability)
易於瞭解(Ease of understanding)
呈現的一致性(Representational consistency)
精簡的呈現(Concise representation)
可取得的資料品質
(Accessibility Data Quality)
可取得性(Accessibility)
取得安全性(Access security)
資料來源:Wang, R. Y., & Strong, D. M. (1996). Beyond Accuracy: What Data Quality Means to Data Consumers.
Journal of Management Information Systems, 12(4), pp5-33.
15. 陸、資料盤點結果-2
15
1-3.使用SQL語法將資料集依據斷詞進行分類,分類結
果如下:
斷詞 筆數 斷詞 筆數 斷詞 筆數 斷詞 筆數
資料 1227 研究 282 調查 149 作業 123
資訊 1001 會計報告 275 類別 145 目錄 122
統計表 995 統計資料 269 名單 141 預算表 117
人數 553 報告 258 平衡表 141 決算書 113
預算 486 內容 217 病例 138 總額 110
決算 437 公告 213 欄位 136 說明 109
預算案 373 件數 211 概況 134 現金流量 103
普查 341 函釋 171 經費 133 狀況 103
情形 324 種類 170 政策 131 總預算 101
分析 301 明細表 164 單位預算 131 分類 101
人口 297 年齡層 154 戶數 123 無法被歸類 3554
16. 陸、資料盤點結果-3
16
1-4.透過人工進行斷詞刪除與合併後,再使用SQL語法
將資料集依據斷詞進行分類,分類結果如下:
斷詞 筆數 斷詞 筆數
人口 人數 學生數 教師數 797 旅遊 觀光 84
預算 決算 1,762 目錄資訊 83
函釋 法規 行政規則 決議書 法令 372 名錄 名單 名冊 清冊 清單 483
案件 646 名詞 145
統計表 統計資料 統計情形 統計年報 1,783 水質監測 16
普查 397
研究計畫 報告書 計畫書 執行計畫 計
畫要點 施政計畫 作業要點 調查報告
論文集 白皮書 會議紀錄
346
會計報告 342 指標 224
電子地圖 位置 地理資訊 地理圖資 村
裡界 地點 據點 點位
329 指數 86
最新消息 公告 新聞 課程資訊 採購資
訊 快訊 簡介
508 無法歸類 6,210
17. 陸、資料盤點結果-4
17
1-5.依據MyEGov OPEN分類檢索服務「服務分類」進行
斷詞及人工進行斷詞合併後,再使用集群分析進行
分類,結果如下:
分類代碼 斷詞 筆數
100 生育 保健 懷孕 產前 人工生殖 生產 娩假 陪產假 坐月子中心 育嬰 流產 99
200 出生 收養 新生兒 母乳 哺育 預防接種 親子關係 生父 子女 原住民身分 51
300
幼兒教育 托兒所 幼稚園 國中 國小 九年一貫 學區 高中 高職 推薦甄試
大學 指定科目 考試 技能檢定 建教 學程 學位 學術 產學 校園徵才 留學
遊學 兵役證明 特殊教育 在家教育 補習 終身學習 數位學習 函授教育 教
育補助 學雜費 獎學金 助學貸款 工讀 學費 僑生 外籍學生 校園安全 大
專院校 教育 技專
616
400
兵役 志願役 服役 義務役 役男 入營 免役 替代役 退伍令 國民兵 國防役
後備軍人 退伍
43
500
求職 就業 職業訓練 專業證照 師資培育職業登記 求才 工作 教師甄試 外
籍勞工 看護 科技人才 足額進用 公益彩券 按摩業 特考 勞工 工會 公會
職業團體 勞資 職場 勞動 工安 職業災害 職業傷害 升遷 職場 勞保
518
600 事業 創業 公司 營業事業 發票 商標 專利 稅務 人力招募 雇用 696
(續下頁)
18. 陸、資料盤點結果-5
18
分類代碼 斷詞 筆數
700 婚姻 結婚 婚前 婚假 離婚 監護權 贍養費 22
800 投資 理財 財務 個人信用 卡債 節稅 金融 股票 保險 上櫃 交易所 證交所 951
900
休閒 旅遊 觀光 住宿 餐飲 入山 入園 護照 簽證 貨幣 機場安全 物品申報
娛樂 大眾媒體 視聽 運動 體育 健身 藝術 文化 表演 民俗 節慶 博物館 美
術館 圖書 出版
552
A00
交通 通訊 鐵路 高鐵 火車 捷運 公路 運輸 電子收費 客運 公車 計程車 加
油站 國道 停車場 號誌 車禍 航空 機場 飛機 航班 航線 飛航 河運 海運
渡輪 郵輪 港口 碼頭 監理 汽車 機車 汽機車 駕照 牌照稅 燃料稅 車子 電
信
528
B00
就醫 健康保險 健保 重大傷病 醫療 衛生 門診 掛號 住院 轉診 診斷 病歷
保健 健康檢查 病患 用藥 藥物 藥品 傳染病 疫情 檢疫 疾病 病友 醫院
721
C00
購屋 遷徙 房屋 土地 建物 法拍 地價 仲介 搬家 遷出 遷入 移民 定居 國
籍 重劃
234
D00 選舉 投票 28
(續下頁)
19. 陸、資料盤點結果-6
19
分類代碼 斷詞 筆數
E00
生活安全 人身安全 財物安全 家庭暴力 性侵 受虐 失蹤 詐騙 社會救助
食品 居家 社區 環境 空氣 水質 噪音 廢棄物 垃圾 資源回收 環保 公害 消
費者
401
F00 退休 志願服務 長住 58
G00 老年 安養 敬老 老農 老人 長期照護 長照 安養 24
H00 生命禮儀 死亡 除籍 器官捐贈 殯葬 生前 遺產 繼承 喪葬 38
I00
公共資訊 政府財政 稅收 公債 預算 決算 政府統計 統計資料 普查 政府
採購 政府新聞 政策 政府出版 公報 資訊服務 入口網 電子地圖 法律服務
法律扶助 義務辯護 調解
2,707
無法歸類 5,225
20. 陸、資料盤點結果-7
20
1-6.依據「主題分類」進行斷詞及人工進行斷詞合併後,
再使用集群分析進行分類,結果如下:
分類名稱 斷詞 筆數
生活地圖 生活 地圖 居住地 工作地 座標 服務處 服務業務承辦 公司 機構 服務 1,232
觀光旅遊
觀光 旅遊 景點 遊憩 休閒 交通 運輸 介紹 農場 公園 旅客 文化園區 原住
民
581
災害防救
災害 天災 水利 防洪 水土 救援 土石 套繪 預報 氣象 警戒 水庫 淹水 潛
勢 風險 Google Earth
382
生活品質 監測 食品安全 環境 空氣 水質 217
藝文活動
藝文 電影 音樂 演唱會 展覽 綜藝 文物 故宮 銅器類 地理 緯度 經度 文化
Google map
436
政府統計 報表 統計 所得 統計表 申報 分位 金額 性別 稅額 感染 病例 3,148
政府預算 預算 預算案 預算表 歲入 預算員額 經費 1,089
統一代碼 代碼 編碼 科目 183
諮詢小組 紀錄 開放諮詢 會議 政策 242
政府支出 會計 月報 決算 基金 平衡表 經費類 決算書 經費 現金出納 1,602
無法歸類 6,440
21. 陸、資料盤點結果-8
21
2. 透過Python程式語法檢視資料資源連結之有效性與資料檔案
格式:
2-1.資料資源連結有效性:
連線狀況
回傳代碼
連線狀況
代碼說明
筆數
2016/2/22 2016/2/23 2016/3/2 2016/3/15
-1 HTTP連線失敗 1,613 2,075 901 905
-2 檔案格式判斷失敗 6,328 6,360 6,363 2,212
200 成功 13,660 13,217 14,367 18,514
204 No Content 1 2 2 2
400 Bad Request 0 1 1 1
401 Unauthorized 1 1 1 1
403 Forbidden 13 13 13 13
404 Not Found 167 169 189 189
500 Internal Server Error 32 33 34 34
502 Bad Gateway 4 4 4 4
503 Service Unavailable 57 1 1 1
總計 21,876 21,876 21,876 21,876
22. 陸、資料盤點結果-9
22
2-2.資料檔案格式一致性:
機關填列與實際之檔案格式 筆數
符合 10,192
不符合 8,313
其他(-1, -2, 204, 400, 401, 403, 404, 500, 502, 503) 3,371
總計 21,876
【備註】HTTP連線失敗之因素包含:
• 讀取時間過長,超過10秒
• 有SSL安全協定
• Port沒有開放
23. 陸、資料盤點結果-9
23
2-3.資料檔案格式統計:
檔案格式 數量 檔案格式 數量 檔案格式 數量
7z 276 kmz 10 xlb 180
cap 2 ksh 259 xls 184
csv 5,695 obj 1,134 xlsx 143
doc 345 ods 94 xml 2,290
docx 361 odt 100 zip 996
geojson 21 pdf 1,655 空白 469
gif 1 png 18
html 884 rar 227
jpe 3 rss 5
json 1,345 txt 36
kml 45 wsdl 208 總計 16,986
25. 柒、資料集現況分析-2
25
2.資料檔案格式之符合程度與資料可被自動化處理情形:
機關填列與實際所提供之資料檔案格式相符合的佔47%,不符合
的佔38%,無法判別的佔15%。
資料檔案格式中可被自動處理的佔58%。
檔案類型 描述 筆數 百分比
可被自動處理
csv, geojson, json, ods, xls,
xlsx, xml
9,772 58%
不可被自動處理
7z, cap, doc, docx, gif, html,
jpe, kml, kmz, ksh, obj, odt,
pdf, png, rar, rss, txt, wsdl, xlb,
zip, 空白
7,214 42%
總計 16,986 100%
• 各機關在填列檔案資料格式時是否確實?資料審查者是否有進
一步核對?
• 是否應限制資料檔案上傳僅能為可被自動處理的檔案格式?
27. 玖、建議評鑑機制
27
資料集之內容資料因涉及各單位之專業,因此今年度僅就
可量化之部分進行評鑑,項目如下:
資料品質面向 指標 項目 比重(%)
符合標準
(Conformance)
符合標準
(Conformance)
資料集之填列內容是否符合data.gov.tw公告之填列
標準(Manual_v2.pdf)?
10
資料集是否開放授權? 5
一致性
(Consistency)
同屬性之資料是否維持一致性? 5
所填列之資料檔案格式是否與實際檔案格式符合? 5
適於使用
(Usability)
可取得
(Availability)
資料資源是否能夠線上取得? 5
資料資源是否能夠直接下載? 15
資料是否免費? 5
資料是否定期更新? 10
可被處理
(Processability)
資料資源是否屬於csv、json、ods、xls、xlsx、xml、
gml的格式?
20
資料是否符合data.gov.tw規定之規範註1? 15
資料是否符合該領域之資料格式註2? 5
註1:請見簡報第28-30頁;註2:請見簡報第31-34頁。
29. 附錄、資料規範-2
29
csv, ods, xls, xlsx json, xml, gml
於第一列依序標註下列文件資訊:
文件標題(string)
更新時間(YYYY-MM-DDThh:mm:ss)
資料筆數(int)
資料欄位筆數(int)
資料欄位位置(int,int)
資料起始位置(int,int)
文件標題(string)
|-更新時間(YYYY-MM-DDThh:mm:ss)
|-資料筆數(int)
|-資料欄位筆數(int)
|-資料編號(int)
| |-資料欄位1
| |-資料欄位2
| |.....
|-/資料編號
|-資料編號(int)
| |-資料欄位1
| |-資料欄位2
| |.....
|-/資料編號
|.....
/文件標題
參考資料:本研究整理、ISO 8601(https://en.wikipedia.org/wiki/ISO_8601)、
W3C(https://www.w3.org/TR/xmlschema-2/#time)
• 通用性資料規範:
32. 附錄、領域資料規範-會計類
32
參考資料:本研究整理、 ISO 8601(https://en.wikipedia.org/wiki/ISO_8601)、Fiscal Data Package
(http://fiscal.dataprotocols.org/spec/)、行政院主計總處政府會計
(https://www.dgbas.gov.tw/lp.asp?ctNode=258&CtUnit=154&BaseDSD=7)
類別 欄位名稱 英文欄位名稱 內容格式 選填條件 附註
資料資訊
Datainformation
檔案名稱 filename 文字 必填
更新時間 updatetime 日期 必填
引用自ISO 8601標準。日期格式
規定為YYYY-MM-DD,如:
2016-03-11;若為日期+時間則需
在時間前面加一大寫字母T,如:
2016-03-11T13:33:20
資料筆數 datacount 整數 必填
資料欄位筆數 fieldcount 整數 必填
資料欄位
Datafield
預算名稱 name 文字 必填
開始日期 startdate 日期 選填 引用自ISO 8601標準及Fiscal Data
Package。日期格式規定為
YYYY-MM-DD,如:2016-03-11結束日期 enddate 日期 選填
預算來源 source 文字 選填
預算狀態 phase 文字 選填
科目 item 整數 必填
引用自行政院主計總處之中央政
府第一級至第三級用途別科目分
類定義及計列標準表
金額 amount 整數 必填
33. 附錄、領域資料規範-活動公告類
33
參考資料:本研究整理、Event Content Model(http://gsa.github.io/Open-And-Structured-Content-
Models/models/event-model.html)、ISO 8601(https://en.wikipedia.org/wiki/ISO_8601)、
TGOS(http://tgos.nat.gov.tw/tgos/Web/Address/TGOS_Address.aspx)、
schema.org(http://schema.org/Event)
類別 欄位名稱 英文欄位名稱 內容格式 選填條件 附註
資料資訊
Datainforma
tion
檔案名稱 filename 文字 必填
更新時間 updatetime 日期 必填
引用自ISO 8601標準。日期格式規定
為YYYY-MM-DD,如:2016-03-11;
若為日期+時間則需在時間前面加一大
寫字母T,如:2016-03-11T13:33:20
資料筆數 datacount 整數 必填
資料欄位筆數 fieldcount 整數 必填
資料欄位
Datafield
標題 title 文字 必填
描述 description 文字 必填
活動類型 eventtype 文字 必填
開始時間 startdatetime 日期 必填 引用自ISO 8601標準。日期格式規定
為YYYY-MM-DDThh:mm:ss,如:
2016-03-11T17:29:59結束時間 enddatetime 日期 必填
聯絡資訊 eventcontact 文字 必填
活動地點 location 文字 必填
引用自TGOS地理圖資雲服務平台中
之門牌檔範本,如:新北市中和區平
和里1鄰連城路260號1樓