More Related Content
Similar to 20141018_OD_meetup#3 (20)
More from Dongpo Deng (20)
20141018_OD_meetup#3
- 1. 連或不連,是⼀一個問題
To link or not to link that’s a question
鄧東波
!
Dongpo Deng
dongpo.deng@gmail.com
- 2. 開放資料
(Open Data)
沒有技術和法律上障礙的資料
Courtesy from http://www.wired.co.uk/news/silicon-europe?page=14
- 4. 開放資料的5顆星
• 這五顆星的等級是以資料
格式,及其可取得的⽅方式
來分級
• 所有的開放資料顆星等必
先滿⾜足第⼀一顆星的開放資
料,也就是以「開放授權」
公開釋出
http://5stardata.info/tw/
- 12. 五顆星的開放資料:
⾃自⼰己能夠被連結,也要連結別⼈人
Image courtesy from http://www.ipvsecurity.com/eng/index.php/56-policies/case-studies/37-sed-ut-perspiciatis-unde-omnis-iste-natus-error-sitem
- 16. 連結資料(Linked Data)
• Tim Berners-Lee的連結資料的原則
1. 使⽤用URI做為事物的名稱;
2. 使⽤用HTTP URI ,因此⼈人們可以
查看這些名稱;
3. 當有⼈人查看⼀一個URI時,利⽤用標
準(如RDF, SPARQL)來提供有⽤用
的資訊;
4. 包含連結到另⼀一個URI的資訊,
使他們可以發現更多事物。
- 24. 規格化
• 區分與清理出可以連結的資料
• 分辨出資料中是「概念」成份,和
這些概念的關係
• 這些概念在知識領域中的解釋
• URI 設計
• BaseURI http://geo.lod.tw
• TBoxURIs http://geo.lod.tw/ontology/
{class|property}
• ABoxURIs
http://geo.lod.tw/resource/Name/公館
規格化
模式化
轉換與連結
發佈
使⽤用
- 25. 模式化
• 根據上⼀一步所區分的概念及其關係,建⽴立
知識本體(Ontologies)
• ⼀一組可分享的觀念之具體規格化
• 要被其它資料連結,需使⽤用標準語彙,
或已存在的語彙,以清楚表達資料內
涵,沒有,再⾃自⾏行定義
• ⽤用OWL或RDFs來表達
• 多數⼈人⽤用Protege編寫
規格化
模式化
轉換與連結
發佈
使⽤用
- 26. 轉檔與連結
• 要連到其它資料,要清楚資料的脈
絡關係,以找到可以連結的資料
• 基本上要梳理資料脈絡關係,可由
三個⼤大⽅方向著⼿手,資料的時間特性、
資料的空間特性、和資料的主題
• ⼯工具
• Silk
• http://wifo5-03.informatik.uni-mannheim.de/bizer/silk/
• LIME
• http://aksw.org/Projects/LIMES.html
規格化
模式化
轉換與連結
發佈
使⽤用
- 27. 轉檔與連結
• 轉檔⼯工具
• CSV and spreadsheets
• RDF extension of Google Refine,
XLWrap, RDF123, NOR2O
• RDB
• D2R Server, ODEMapster, W3C
RDB2RDF WG – R2RML
• XML
• GRDDL, ReDeFer
規格化
模式化
轉換與連結
發佈
使⽤用
- 28. 轉檔與連結
• 檢查錯誤
• http上的問題,可及性 (accessibility)
和反連性 (derefencability)
• namespace和vocabulary不⼀一致
• 對映錯誤,同⼀一個名字在資料集可
能有好幾個
規格化
模式化
轉換與連結
發佈
使⽤用
- 29. 發佈
• RDF stores and SPARQL endpoints
• Jena, Virtuoso, Sesame,4Store, OWLIM,
BBN Parliament
• linked-data front-end services
• Pubby, TalisPlatform, Fuseki, D2RQ
規格化
模式化
轉換與連結
發佈
使⽤用
- 30. 發佈規格化
模式化
轉換與連結
發佈
使⽤用
HTML RDF
D2R Pubby
MySQL
RDB
Virtuoso
RDF store
Web
- 34. 處理台灣地名之⺫⽬目的
• 地名的再使⽤用率⾼高、被連結率也⾼高
• 地名語意常是模糊不清,連結資料適合來處理
• 台灣多族群、多語⾔言、多時期,地名演變有⽂文化和
歷史意義
• ⼀一地多名、⼀一名多地
• 定常性的地名服務做為網路世界中⽂文化累積的接⼝口
• 地名做為「控制語彙」,⽤用在CKAN中管理其它資料
- 35. 資料的限制
• 地名資料欄位
• 地名名稱、漢語拼⾳音、通⽤用拼⾳音、所屬村⾥里、所屬
鄉鎮市區、所屬縣市、地名別稱、地名意義、地名
年代時間、地名類型、地圖坐標、語⾔言別、命名族
群、相關位置與⾯面積描述、地名沿⾰革與⽂文獻歷史簡
述、地名相關事項訪談內容、普查使⽤用之地圖與⽂文
獻
- 36. 內容缺漏
• 收集40,415筆地名資料, 含舊地名
• 只有4,821筆地名有x,y 座標, 且座標系統為TM2
• 13,615筆地名有開始時間, 8,153筆有結束時間,
6,646筆開始和結束都有
• 6,089筆地名具有類別, 但類別標記⽅方式沒有統⼀一,
重複性⾼高
- 37. 地名知識本體
geo:Feature
tpn:Place
tpn:featureClass tpn:FeatureType
owl:subClassOf
skos:Concept
owl:subClassOf
geo:inside
time:Interval
geo:Geometry
owl:subClassOf
geo:Point
tpn:Footprint
geo:hasGeometry
geo:asWKT
geo:wktLiteral
tpn:is_in
owl:subClassOf
event:Event
event:place
tpn:memberOf
tpn:name
owl="http://www.w3.org/2002/07/owl#"
xsd="http://www.w3.org/2001/XMLSchema#"
geo="http://www.opengis.net/ont/geosparql#"
time="http://www.w3.org/2006/time#"
tpn="http://lod.tw/ontologies/geoname.owl#"
event="http://purl.org/NET/c4dm/event.owl#"
event:time
tpn:Name
(NameCollection)
tpn:PlaceName
time:hasBeginning
time:Instant
tpn:startToUse
tpn:endToUse
time:hasEnd
tpn:altName
- 58. inappropriate use of
vocabularies
The region (e.g. state or province)
associated with the address of the object
- 60. 結語
!
• 政府開放資料應考慮的是如何滿⾜足三顆星的條件,再思考四、
五星的開放資料
• 連結資料是能夠相互連結的資料,也就是可以被連,並可以
向外連其它資料,但各國政府的資料,向外的連結率皆不⾼高
• 根據Bizer等⼈人(2011)的統計,政府所發佈的RDF資料量
相對是最⾼高的,約佔42%,但對外連結卻相當低,低於
4%
• 政府的連結資料(或連結政府資料)該由政府單位來做嗎?