詞袋模型

維基百科,自由的百科全書

自然語言處理信息檢索裏,詞袋模型(英語:Bag-of-words model)是一個簡化的表達模型。在此模型下,一段文本(比如一個句子或是一個文檔)可以用一個裝著這些詞的袋子來表示,這種表示方式不考慮文法以及詞的順序。最近詞袋模型也被應用在電腦視覺領域。[1]

詞袋模型被廣泛應用在文件分類,詞語出現的頻率可以用來當作訓練分類器的特徵。

關於「詞袋」這個用字的由來可追溯到澤里格·哈里斯英語Zellig Harris於1954年在《Distributional Structure》的文章[2]

範例

下列文件可用詞袋錶示:

以下是兩個簡單的文件:

(1) John likes to watch movies. Mary likes movies too.
(2) John also likes to watch football games.

基於以上兩個文件,可以建構出下列清單:

[
    "John",
    "likes",
    "to",
    "watch",
    "movies",
    "also",
    "football",
    "games",
    "Mary",
    "too"
]

此處有10個不同的詞,使用清單的索引表示長度為10的向量:

(1) [1, 2, 1, 1, 2, 0, 0, 0, 1, 1] (2) [1, 1, 1, 1, 0, 1, 1, 1, 0, 0] 

每個向量的索引內容對應到清單中詞出現的次數。

舉例來說,第一個向量(文件一)前兩個內容索引是1和2,第一個索引內容是"John"對應到清單第一個詞並且該值設定為1,因為"John"出現一次。

此向量表示法不會保存原始句子中詞的順序。該表示法有許多成功的應用,像是郵件過濾。

Term weighting

在上述的範例,文件向量包含term頻率。

在信息檢索和文字分類常用不同方法量term權重。常見方法為tf-idf

範例:垃圾郵件過濾

分類一個郵件訊息,一個貝氏垃圾郵件分類假設訊息是一堆字並且隨機倒在兩堆袋子其中一個袋子裡,之後使用貝氏機率去決定哪個「袋子」(「垃圾郵件袋子」還是「正常郵件袋子」)是較有可能的。

參考文獻

  1. ^ Sivic, Josef. Efficient visual search of videos cast as text retrieval (PDF). IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 31, NO. 4. IEEE: 591–605. April 2009 [2016-03-06]. (原始內容存檔 (PDF)於2016-02-22). 
  2. ^ Harris, Zellig. Distributional Structure. Word. 1954, 10 (2/3): 146–62. And this stock of combinations of elements becomes a factor in the way later choices are made ... for language is not merely a bag of words but a tool with particular properties which have been fashioned in the course of its use 

參見