Tuesday, 25 December 2018

為什麼開放連結資料(Linked Open Data/LOD)的資料溯源(Provenance)很重要?







一個基本原因,在於我們對於後設資料品質(metadata quality)的不滿意:

從單純的欄位值出現亂碼、空值、矛盾,資料重複、名稱模糊、欄位定義混淆、編碼不一致,或資料的語意描述不是太過薄弱(資訊不足、缺乏必要欄位)、不然就是語意超載(一個欄位包含太多語意)

更進一步的觀察LOD現況,在數位化資料轉換更新與整合過程中,
  1. 往往無法保持原始資料的完整性: 如不同資料模型與資料庫間資料的轉換、異質資料來源的跨平台分散式處理。
  2. 錯誤使用國際語彙標準: 如語彙標準中類別(Class)與屬性/謂詞( Property )的誤用、違反資料模型中定義域(Domain/Type)與值域(Range/Value)的規範、以及上下階層語意的矛盾等。
也因此當我們不得不贊同Van Hooland Verborgh2014)說「沒有完全乾淨的後設資料」時,頓時難掩我們失落的沮喪。事實上資料清理工作可能發生在進行LOD前的前處理,也可能在完成LOD後的後處理。時間、經費、人力均會影響資料清理與品質。

關鍵是,愈早規劃後設資料品質,資料的價值才可能永續。

台灣的文化資源LOD 剛開始萌芽,例如Open Data Web台中學資料庫鏈結開放資料平台、以及近期國家級推動的前瞻基礎建設:文化部國家文化記憶庫等。然而相對國際LODLAM(Linked Open Data in Libraries, Archives, and Museums)LAMLOD發展則仍顯落後。幸運的是若能吸取過往錯誤經驗,揚棄沉滯的老套作法,在啟動計劃初期,即能取得後設資料品質管理的平衡,那麼「在後的將要在前」也不難期待。

令人意外的是,簡單並忠實的描述不同脈絡階段的人、時、地資訊,即可提供後設資料好的資料品質管理。而這也就是歷史文化學者Meroño-Peñuela 等人( 2014) 提出資料溯源(Provenance)是一個解決的方向。以下我們用「小飛的故事: 一隻40年前聖誕節在台中公園飛舞的蝴蝶來說明,為何透過不同階段脈絡的人、時、地簡約的資訊架構,即可清晰簡單的描述W3C複雜的資料溯源知識本體推薦標準 (PROV-O)基本概念。


蝴蝶小飛的數位化歷史過程,導引我們同樣看待文化資產物件數位化的人、時、地資訊。今日我們都希望能利用LOD技術讓機器快速大量的語意化資料、整合分散式資料庫、連結全球語意網知識,同時又要邁向公眾協力文化記憶,因此提供機器每一個文化物件的後設資料溯源(Provenance),就像是在藝術品拍賣會中,每一個珍貴的藝術品,它的拍品出處必需追溯物品來源以及上手物主,而保證欄、編製圖錄則需標明藝術家或創作人、製作年份、持有轉手人紀錄、參展紀錄、相關記述出版物等。換言之,後設資料溯源就是數位化資料的品質保證書。


參考資料:
  1. Meroño-Peñuela, A., Ashkpour, A., Van Erp, M., Mandemakers, K., Breure, L., Scharnhorst, A., ... & Van Harmelen, F. (2014). Semantic technologies for historical research: A survey. Semantic Web, 6(6), 539-564.
  2. Van Hooland, S., & Verborgh, R. (2014). Linked Data for Libraries, Archives and Museums: How to clean, link and publish your metadata. London: Facet Publishing.
  3. 黃韋菁、 李承錱、 莊庭瑞, (Andrea Wei-Ching Huang,  Cheng-Jen Lee and Tyng-Ruey Chuang), 結構資料的再次使用:語意、連結與實作 (Reuse of Structured Data: Semantics, Linkage, and Realization), 圖書館學與資訊科學(Journal of Library and Information Science) 43 (1), 7-46, 2017, DOI: 10.6245/JLIS.2017.431/722
Citation Information: 黃韋菁 (2018) 為什麼開放連結資料(Linked Open Data/LOD)的資料溯源(Provenance)很重要? URL: http://andrea-index.blogspot.com/2018/12/provenance.html