跳至內容

機讀數據

維基百科,自由的百科全書

機讀數據是指合符可由電腦處理格式的數據。機讀數據必須是結構化數據[1]

在美國,2019年1月14日的OPEN政府數據法案英語Foundations_for_Evidence-Based_Policymaking_Act將機讀數據定義為「一種格式,該格式可以由計算機輕鬆處理而無需人工干預,同時確保不丟失語義。」法律指示美國聯邦機構以這種方式發佈公共數據,[2]確保「該機構的任何公共數據資產都是機讀的」。[3]

機讀數據可分為兩類:標記為人類可讀的數據,以便機器也可以讀取(例如,微格式RDFaHTML),以及主要用於機器處理的數據文件格式(CSVRDFXMLJSON)。需注意的是,僅當這些格式其中包含的數據經過正式結構化時,才是機讀數據,而從結構不良的電子表格中導出CSV文件則不符合定義。

機讀不是可數字訪問(英文:digitally accessible)的同義詞。可數字訪問的文檔可能在線上,使人類更易於透過電腦存取,但是如果內容不是機讀的,則很難通過電腦編程邏輯來提取,轉換和處理其內容。[4]

可擴展標記語言(XML)被設計為可人類和機讀的,可擴展樣式表語言轉換(XSLT)用於改善數據的呈現方式以提高人類可讀性。例如,XSLT可用於自動呈現可移植文檔格式(PDF)的XML。機讀數據可以自動轉換以提高可讀性,但是通常來說,事實並非如此。

為了實施《政府績效和結果法案英語Government Performance and Results Act》(GPRA)現代化法案,美國行政管理和預算局(OMB)定義了「機讀格式」,如下所示:「格式可以是標準計算機語言(非英語)。由網絡瀏覽器或計算機系統自動讀取(例如xml)。傳統的文字處理文檔和便攜式文檔格式(PDF)文件很容易被人類讀取,但通常機器難以解釋。其他格式,例如可擴展標記語言(XML),(JSON)或帶有標題欄且可以導出為逗號分隔值(CSV)的電子表格是機讀的格式。由於HTML是一種結構化標記語言,可以謹慎地標記文檔的某些部分,因此計算機可以收集文檔組件來組裝目錄 (書籍),大綱,文獻檢索書目等。可以使傳統的文字處理文檔和其他格式可以機讀,但該文檔必須包括增強的結構元素。」 [5]

參見

參考資料

  1. ^ Machine readable. opendatahandbook.org. [2019-07-22]. (原始內容存檔於2021-02-05). 
  2. ^ HR4174. stratml.us. [2020-08-05]. (原始內容存檔於2019-01-19). 
  3. ^ HR4174. stratml.us. [2020-08-05]. (原始內容存檔於2019-01-19). 
  4. ^ A Primer on Machine Readability for Online Documents and Data. Data.gov. 2012-09-24 [2015-02-27]. (原始內容存檔於2021-03-20). 
  5. ^ OMB Circular A-11, Part 6 網際網路檔案館存檔,存檔日期2020-04-22., Preparation, Submission, and Execution of the Budget