Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

20160602 典藏目錄的語意與連結

614 views

Published on

典藏品的目錄資訊是常民得以親近典藏機構的介面。全面性的目錄資料整理分析與再次使用,對個別典藏機構也常有自有檢視、功能更新的效用。不同單位之間
典藏目錄資料的彙集參照,對於研究者尤其重要。我們以「典藏台灣」網站上聯合目錄的一部份資料為基礎,探究典藏品目錄資料以資料連結方式重新使用的處
理原則與實務方法。聯合目錄內的資料來自十多個典藏機構,以及曾參與數位典藏國家型計畫的眾多研究單位,內容十分豐富多樣。

我們將展示用以重新連結目錄資料的流程、工具、與語意架構。其中包括:歷史性資料的保存與轉換原則、半結構性型態(如XML)到表單型態再到資源描述型態(如
RDF)的資料轉換方法、開放源碼工具的選用、資料連結(linked data)以及資料藏庫(data repository)的整合、以及目錄資料與外部資源的連接。語意架構方面將分述兩種角度與作法:資料的出處溯源(provenance)以及資料的語意再現(representation),如事件型態中人、時、地、物等資訊的解析與連結。

Published in: Technology
  • Login to see the comments

  • Be the first to like this

20160602 典藏目錄的語意與連結

  1. 1. 典藏目錄的語意與連結 「語意網視野下的知識組織與文化資產」研討會 2016年6月2日 台北 莊庭瑞、黃韋菁、李承錱 、陳心萍 中央研究院 資訊科學研究所
  2. 2. 1. 典藏品目錄資料
  3. 3. 典藏品目錄資料 ● 常人親近機構典藏品的介面 ● 研究者常需參照不同機構的典藏品目錄資料 ● 目錄資料的維持與更新;目錄資料也成為藏品! ● 典藏台灣聯合目錄:資料來自四方、樣態豐富 ● 部份目錄已採創用CC授權:可被自由複製散布 – 典藏品資訊的重新呈現與外部連結 – 時間、空間、人物、物件的語意關聯查詢 – 「資料連結」(linked data)的實踐
  4. 4. XML – RDF – CSV ● XML – 巢狀階層;文本&標示同現於文件 – 可自訂標示語彙以規範文件結構 ● RDF – 節點網絡;個體—關聯—個體(個體—屬性—純量) – 可自訂關聯(屬性)語彙以表達網絡意涵 ● CSV – 格狀表單;同質性群體的表列式個體屬性值 – 不明定表單欄位名稱與型態;固定欄位數量 XML – 可擴展標示語言 (eXtensible Markup Language) RDF – 資源描述架構 (Resource Description Framework) CSV – 逗號分隔值 (Comma-Separated Values)
  5. 5. From XML to RDF via CSV ● 目錄結構 XML – 非遞迴、非深巢狀的層次型態文件;固定語彙;文字紀錄 ● 中介表單 CSV – XML語彙對映至RDF語彙為欄位;目錄資料依序條列 ● 資料連結 RDF – 逐列轉譯中介表單為資料連結網絡;使用領域語彙為關聯 ● 特點 – 中介表單可參照其他資源表單;表單可人工勘誤;表單增 修歷程可管理;軟體工具多;資料連結的產出方式有彈性
  6. 6. 2. 資料連結的系統 http://data.odw.tw/
  7. 7. 從目錄資料到資料連結 以資料連結完整呈現數位典藏之藏品 (原始文字) D (DC15) 版本 對應外部資料,以領域語彙豐富藏品描述 R (Refined) 版本 "Coverage" (即 dc:coverage) 中描述之地名,對應至 geonames.org "Date" (即 dc:date) 中描述之各種格式時間,正規化 為標準的 ISO8601 格式 生物標本資料之 dc:title,對應至生命大百科 (Encyclopedia of Life) 以自動化方式作業,再輔以人工判斷
  8. 8. 語彙對應與格式轉換: 兩步驟流程 典藏目錄 XML/ 中介 CSV txn:hasEOLPage <http://eol.org/pages/1134120> ; -------------------------------------------- skos:editorialNote "採集日期" ; dwc:eventDate "1993-04-25" ; RDF- like CSV 步驟 1: 將原始欄位 對應至語彙 以設定檔 (profile) 定義對應關係 更換語彙時僅需調整對應的設定檔 步驟 2: 轉換格式為 資料連結 原始資料 對應語彙後 資料連結 (RDF) Title 台灣一葉蘭 Date::field 採集日期 Date 1993-04-25 txn:hasEOLPage eol:1134120 rdf:type schema:CreateAction skos:editorialNote 採集日期 dwc:eventDate 1993-04-25
  9. 9. 儲存與呈現 提供機器存取 SPARQL Endpoint 高執行效能 高可靠度 提供資料連結瀏覽 熱門開源資料管理系統 介面可自定性高 提供資料連結匯出/入
  10. 10. 典藏目錄藏品 XML 與 CSV (主要以 Dublin Core 十五個基本欄位編寫) 資料連結 (D 版與 R 版) CKAN (資料展示、 搜尋與資料 API 等) Virtuoso (SPARQL 語意檢索) 對應、轉換 使用者 系統架構與運作方式
  11. 11. 功能展示 (1): 資料連結瀏覽 主功能選單 Records: 藏品原始資料 (D 版) Refined: 擴充語彙內容 (R 版) 藏品列表 過濾器
  12. 12. 標題與藏品圖片 快速切換 D/R 版本
  13. 13. 資料連結內容 提供 JSON 與 Turtle
  14. 14. 功能展示 (2): 空間搜尋 • 空間索引範圍: property = geo:lat, geo:long 台南地區資料
  15. 15. 功能展示 (3): 時間搜尋 • 時間索引範圍: datatype = dct:W3CDTF, xsd:date, xsd:gYear 19 世紀資料
  16. 16. 功能展示 (4): SPARQL Endpoint
  17. 17. 地理展示 (開發中)
  18. 18. 搜尋及應用資料 發布與資料管理 資料共享與鏈結客製化功能開發 • 友善之搜尋介面 • 多元之資料視覺化功能 • 資料 API 促進資料再使用 • 多元的資料發布方式 • 完善之資料發布流程 • 擴充介面 (Interface) • 支援國際目錄標準 • 資料採集 • 社交網站資料公告
  19. 19. 3. 資料的語意與連結: Ontology for Open Data Web (voc4odw) http://voc.odw.tw/
  20. 20. 從 資料再次使用關聯性的知識本體出發 再次使用84萬筆CC 授權典藏品
  21. 21. data:dOID evt84:eventID r1: dOID dcat:landingPage data:p20160601-dOID data:p20160601-dOID Descriptive Metadata DC 15 Elements Administrative Metadata PROVENANCE agent:qID project:qID r4r:hasProvenance r4r:isPackagedWith r4r:locateAt prov:invalidated dct:requires Semantic Refinement o D版物件作為主要 RRObject(再次使用相關物件) o R版物件以D版為基礎套用相關語彙豐富物件語意o 每個物件均配套打包後設資料溯源 (provenance)
  22. 22. Place Time Metadata 資源描述的是誰? 誰的時間? 誰的地點?
  23. 23. o Data Model 依賴 Conceptual Model 決定Event的人時地物概念。 o Event Concept依賴國際語彙描述一 般性或專業領域的知識情境 (context)。 o 如一般性拍攝活動(事件)主要以 Schema.org terms描述,若與專業 知識有關的拍攝活動,則進一步考 量專業知識語彙如Art and Architecture Thesaurus (AAT) 或 Darwin Core Terms。 o 協助使用者再次使用 data.odw.tw 物件時, 了解資料ID的使用結構。 o 獨立Core Model 使用的國際語彙與 上下位關係,可簡化Core Model 使 用外部語彙的複雜度。 o 在不變動Core Model 前提下,可彈 性增減、替換國際語彙的利用,而 不影響原ontology 架構。
  24. 24. DC 15 Elements DC Terms Class 1. dc:contributor 1. dct:contributor 2. dc:coverage 2. dct:coverage LocationPeriodOrJurisdiction  Location  PeriodOfTime  Coverage Literal 3. dc:creator 3. dct:creator 4. dc:date 4. dct:date  PeriodOfTime  Date Literal 5. dc:description 5. dct:description 6. dc:format 6. dct:format 7. dc:identifier 7. dct:identifier 8. dc:language 8. dct:language 9. dc:publisher 9. dct:publisher 10. dc:relation 10. dct:relation 11. dc:rights 11. dct:rights 12. dc:source 12. dct:source 13. dc:subject 13. dct:subject 14. dc:title 14. dct:title dtxn:hasEOLpage 15. dc:type 15. dct:type Event Time Place People event:place gn:locatedIn gn:parentADM1 gn:parentADM2 gn:parentADM3 gn:parentADM4 gn:parentCountry gn:parentFeature geo:lat geo:long dwc:locality dwc:maximumElevationInMeters dwc:minimumElevationInMeters dwc:verbatimDepth dwc:continent dwc:locationID gn:historicalName gn:countryCode schema:geo schema:elevation schema:location schema:polygon dct:temporal event:time time:intervalStarts time:intervalFinishes time:intervalBefore time:intervalAfter voc:lastIntervalOf voc:initialIntervalOf dct:date dwc:dateIdentified dwc:eventDate dwc:namePublishedInYear schema:endDate schema:startDate schema:birthDate schema:deathDate voc:pointBefore voc:pointAfter voc:latest (not done yet) (not done yet) (not done yet) (not done yet) o 自Coverage 抽取空間與時間資訊,自Date抽取 時間資訊。 o 在Event概念情境下,時間空間的連結外部知 識庫之property,以時空專屬語彙描述其二者 關係,如時間 Time Ontology,空間GeoNames Ontology。 o 若與專業知識有關的event,如標本資料之鑑 定活動,則進一步考量專業知識語彙如Darwin Core Terms (dwc:dateIdentified)。
  25. 25. txn:hasEOLPage EOL Time Normalization GeoNames Wikidata dct:temporal dct:spatial dct:date schema:location ^^xsd:date rdf:type o Event Type, Event Factor, Event Product 的知識概念以 Individual 概念串連, 使知識概念容易增減、更動、替換,同時不會影響Core Model 結構。 o 現階段14 domain 只處理生物類與 Encyclopaedia of Life (EOL)語意連結。
  26. 26. Place Time dct:PhysicalResource event:factor event:product dwc:PreservedSpecimen event:factor event:product schema:Photograph event:factor schema:MediaObject event:product dct:PhysicalMedium schema:ImageObject o 以Event Factor, Event Product 的概念回答Metadata 資源描述的是誰? 誰的時間? 誰的地點? o 釐清事件的描述主體是資源的數位化過程中不同階段的主體,如是實體物標本、實體物相片、 數位化物件…等 。
  27. 27. 典藏目錄的語意與連結 典藏目錄的後設資料溯源 voc:CoreModel
  28. 28. 銅製沉思少女 : 我的生日是何時? source:http://image.digitalarchives.tw/ImageCache/00/46/73/00.jpg
  29. 29. 人懂 “台灣日治時期” 機器不懂
  30. 30. 人懂 “台灣日治時期” 機器不懂 機器懂一些 人懂 “台灣日治時期” o “台灣日治時期” 是時間 o 銅製沉思少女的家譜 DC15 D版 Provenance (後設資料溯源)描述 prov:wasStartedBy
  31. 31. 人懂 “台灣日治時期” 機器不懂 機器懂一些 更多人懂更多 “台灣日治時期”人懂 “台灣日治時期” 機器能作時間推理 o “明末清初”在“台灣日治時期”之前。 o 多種定義interpretations 可同時存在。 o 外部URI內容更新,語意自動更新。 DC15 Refined Wikidata 的多國語言使得 o “台灣日治時期” 是時間 o 銅製沉思少女的家譜
  32. 32. data.odw.tw & voc.odw.tw 歡迎您寶貴的意見! 預祝端午佳節快樂!

×