機讀數據

機讀數據是指合符可由電腦處理格式的數據。機讀數據必須是結構化數據。^[1]

在美國，2019年1月14日的OPEN政府數據法案（英语：Foundations_for_Evidence-Based_Policymaking_Act）將機讀數據定義為「一種格式，該格式可以由計算機輕鬆處理而無需人工干預，同時確保不丟失語義。」法律指示美國聯邦機構以這種方式發佈公共數據，^[2]確保「該機構的任何公共數據資產都是機讀的」。^[3]

機讀數據可分為兩類：標記為人類可讀的數據，以便機器也可以讀取（例如，微格式，RDFa，HTML），以及主要用於機器處理的數據文件格式（CSV、RDF、XML、JSON）。需注意的是，僅當這些格式其中包含的數據經過正式結構化時，才是機讀數據，而從結構不良的電子表格中導出CSV文件則不符合定義。

機讀不是可數字訪問（英文：digitally accessible）的同義詞。可數字訪問的文檔可能在線上，使人類更易於透過電腦存取，但是如果內容不是機讀的，則很難通過電腦編程邏輯來提取，轉換和處理其內容。^[4]

可擴展標記語言（XML）被設計為可人類和機讀的，可擴展樣式表語言轉換（XSLT）用於改善數據的呈現方式以提高人類可讀性。例如，XSLT可用於自動呈現可移植文檔格式（PDF）的XML。機讀數據可以自動轉換以提高可讀性，但是通常來說，事實並非如此。

為了實施《政府績效和結果法案（英语：Government Performance and Results Act）》（GPRA）現代化法案，美國行政管理和預算局（OMB）定義了「機讀格式」，如下所示：「格式可以是標準計算機語言（非英語）。由網絡瀏覽器或計算機系統自動讀取（例如xml）。傳統的文字處理文檔和便攜式文檔格式（PDF）文件很容易被人類讀取，但通常機器難以解釋。其他格式，例如可擴展標記語言（XML），（JSON）或帶有標題欄且可以導出為逗號分隔值（CSV）的電子表格是機讀的格式。由於HTML是一種結構化標記語言，可以謹慎地標記文檔的某些部分，因此計算機可以收集文檔組件來組裝目錄 (書籍)，大綱，文獻檢索書目等。可以使傳統的文字處理文檔和其他格式可以機讀，但該文檔必須包括增強的結構元素。」 ^[5]

參見

參考資料

^ Machine readable. opendatahandbook.org. [2019-07-22]. （原始内容存档于2021-02-05）.
^ HR4174. stratml.us. [2020-08-05]. （原始内容存档于2019-01-19）.
^ HR4174. stratml.us. [2020-08-05]. （原始内容存档于2019-01-19）.
^ A Primer on Machine Readability for Online Documents and Data. Data.gov. 2012-09-24 [2015-02-27]. （原始内容存档于2021-03-20）.
^ OMB Circular A-11, Part 6 互联网档案馆的存檔，存档日期2020-04-22., Preparation, Submission, and Execution of the Budget

[1] Machine readable. opendatahandbook.org. [2019-07-22]. （原始内容存档于2021-02-05）.

[2] HR4174. stratml.us. [2020-08-05]. （原始内容存档于2019-01-19）.

[3] HR4174. stratml.us. [2020-08-05]. （原始内容存档于2019-01-19）.

[4] A Primer on Machine Readability for Online Documents and Data. Data.gov. 2012-09-24 [2015-02-27]. （原始内容存档于2021-03-20）.

[5] OMB Circular A-11, Part 6 互联网档案馆的存檔，存档日期2020-04-22., Preparation, Submission, and Execution of the Budget

[1]

[2]

[3]

[4]

[5]