跳至內容

資訊抽取

本頁使用了標題或全文手工轉換
維基百科,自由的百科全書

資訊抽取Information Extraction,簡稱IE,又譯資訊擷取技術)主要是從大量文字資料中自動抽取特定訊息(Particular Information),以作為資料庫存取(Database Access)之用的技術

資訊抽取的一個廣泛目標是允許對以往非結構化的資料去做計算,具體來說就是要允許邏輯推理能對輸入資料邏輯內容可以舉一反三。其意義在於決定了例如在網際網路上其非結構化(例:不包含元資料)形式中有用資訊數量的成長。在這方面的技術上是透過轉換到關係形式或是經由XML標籤的標記來達到更多的可存取性──一個智慧型代理程式,監督一新聞資料饋流,需要資訊擷取技術來轉換非結構化資料到某種可推論的方式。

起源

資訊檢索技術又稱為「訊息理解」(Message Understanding英語Message Understanding),其主流研究起源於1987年訊息理解會議英語Message Understanding ConferenceMessage Understanding Conference英語Message Understanding Conference, MUC英語MUC),這個會議主要提倡利用自然語言處理技術,對文字資訊作更深度的剖析,以提高資訊檢索認知程度。從1987年第一屆會議迄今,MUC英語Message Understanding Conference已經舉辦過六次會議,每年會中皆會提供文字資料以及標準問題,供與會者以所發展的系統自動抽取訊息,這種競賽方式對於整個領域的技術提昇有很大的助益。

目的

資訊抽取的基本任務包含了:

自然語言處理範疇,資訊擷取技術是雷同於資訊檢索領域的一種類型,它的目的是要以自動化的方式來擷取結構化資訊,例如:在某一個特定領域或是從非結構化機器可讀的檔案中,對明確的資料進行分類、判斷上下文以及語義化的分析

模板分類

資訊擷取技術一般藉助事先準備的模板(Template)以擷取特定新聞事件包括人(Who)、事(What)、地(where)與時間(When)等事實(Fact)。因為擷取事實必須對所分析檔案有某種程度的剖析理解能力,在各種資訊檢索研究課題中,資訊擷取技術一直相當仰賴自然語言處理技術,因此是傳統上最典型的智慧型檢索技術之ㄧ。

判斷文句

一般資訊擷取技術的做法包括具備檔案過濾程式(Text Filter),藉此從大量檔案過濾出較相關的文字片段,其作法與資訊過濾技術(Information Filtering)較為類似。接著利用剖析程式(Parser),將檔案片段轉化成剖析樹(Parsing Tree)。剖析樹類似我們閱讀英文時的文法結構,是對文句做語法分析(例如找出動詞主詞受詞),之後再將這些剖析樹與原先欲抽取的模板比對,擷取出有關人事地物的事實出來。

語義化分析

資訊擷取研究,主要還是針對特定領域的檔案進行深度分析,因此過程中還包括詞彙語意標定(Semantic Tagging)、重要名詞片語抽取(Noun Phrase Extraction),文句部分剖析(Partial Parsing)、產生語意格框(Semantic Frame)等相關技術,因此開發一個資訊擷取系統必須事先建立很完整的領域知識,包括相關詞彙片語、文法規則、語意規則等。

參考資料

《圖書資訊檢索技術》卜小蝶著:文華,台北市,民85