一個基本原因,在於我們對於後設資料品質(metadata quality)的不滿意:
從單純的欄位值出現亂碼、空值、矛盾,資料重複、名稱模糊、欄位定義混淆、編碼不一致,或資料的語意描述不是太過薄弱(資訊不足、缺乏必要欄位)、不然就是語意超載(一個欄位包含太多語意)。
更進一步的觀察LOD現況,在數位化資料轉換更新與整合過程中,
- 往往無法保持原始資料的完整性: 如不同資料模型與資料庫間資料的轉換、異質資料來源的跨平台分散式處理。
- 錯誤使用國際語彙標準: 如語彙標準中類別(Class)與屬性/謂詞( Property )的誤用、違反資料模型中定義域(Domain/Type)與值域(Range/Value)的規範、以及上下階層語意的矛盾等。
關鍵是,愈早規劃後設資料品質,資料的價值才可能永續。
台灣的文化資源LOD 剛開始萌芽,例如Open Data Web、台中學資料庫、鏈結開放資料平台、以及近期國家級推動的前瞻基礎建設:文化部國家文化記憶庫等。然而相對國際LODLAM(Linked Open Data in Libraries, Archives, and Museums)或LAMLOD的發展則仍顯落後。幸運的是若能吸取過往錯誤經驗,揚棄沉滯的老套作法,在啟動計劃初期,即能取得後設資料品質管理的平衡,那麼「在後的將要在前」也不難期待。
令人意外的是,簡單並忠實的描述不同脈絡階段的人、時、地資訊,即可提供後設資料好的資料品質管理。而這也就是歷史文化學者Meroño-Peñuela 等人( 2014) 提出資料溯源(Provenance)是一個解決的方向。以下我們用「小飛的故事」: 一隻40年前聖誕節在台中公園飛舞的蝴蝶來說明,為何透過不同階段脈絡的人、時、地簡約的資訊架構,即可清晰簡單的描述W3C複雜的資料溯源知識本體推薦標準 (PROV-O)基本概念。
蝴蝶小飛的數位化歷史過程,導引我們同樣看待文化資產物件數位化的人、時、地資訊。今日我們都希望能利用LOD技術讓機器快速大量的語意化資料、整合分散式資料庫、連結全球語意網知識,同時又要邁向公眾協力文化記憶,因此提供機器每一個文化物件的後設資料溯源(Provenance),就像是在藝術品拍賣會中,每一個珍貴的藝術品,它的拍品出處必需追溯物品來源以及上手物主,而保證欄、編製圖錄則需標明藝術家或創作人、製作年份、持有轉手人紀錄、參展紀錄、相關記述出版物等。換言之,後設資料溯源就是數位化資料的品質保證書。
參考資料:
- Meroño-Peñuela, A., Ashkpour, A., Van Erp, M., Mandemakers, K., Breure, L., Scharnhorst, A., ... & Van Harmelen, F. (2014). Semantic technologies for historical research: A survey. Semantic Web, 6(6), 539-564.
- Van Hooland, S., & Verborgh, R. (2014). Linked Data for Libraries, Archives and Museums: How to clean, link and publish your metadata. London: Facet Publishing.
- 黃韋菁、 李承錱、 莊庭瑞, (Andrea Wei-Ching Huang, Cheng-Jen Lee and Tyng-Ruey Chuang), 結構資料的再次使用:語意、連結與實作 (Reuse of Structured Data: Semantics, Linkage, and Realization), 圖書館學與資訊科學(Journal of Library and Information Science) 43 (1), 7-46, 2017, DOI: 10.6245/JLIS.2017.431/722