主題模型

維基百科,自由的百科全書

主題模型(Topic Model)在機器學習自然語言處理等領域是用來在一系列文檔中發現抽象主題的一種統計模型。直觀來講,如果一篇文章有一個中心思想,那麼一些特定詞語會更頻繁的出現。比方說,如果一篇文章是在講狗的,那「狗」和「骨頭」等詞出現的頻率會高些。如果一篇文章是在講貓的,那「貓」和「魚」等詞出現的頻率會高些。而有些詞例如「這個」、「和」大概在兩篇文章中出現的頻率會大致相等。但真實的情況是,一篇文章通常包含多種主題,而且每個主題所佔比例各不相同。因此,如果一篇文章10%和貓有關,90%和狗有關,那麼和狗相關的關鍵字出現的次數大概會是和貓相關的關鍵字出現次數的9倍。一個主題模型試圖用數學框架來體現文檔的這種特點。主題模型自動分析每個文檔,統計文檔內的詞語,根據統計的信息來斷定當前文檔含有哪些主題,以及每個主題所佔的比例各為多少。

主題模型最初是運用於自然語言處理相關方向,但目前以及延伸至例如生物信息學的其它領域。

歷史

Papadimitriou、Raghavan、Tamaki和Vempala在1998年發表的一篇論文中提出了潛在語義索引[1]。1999年,Thomas Hofmann又在此基礎上,提出了概率性潛在語義索引(Probabilistic Latent Semantic Indexing,簡稱PLSI)[2]

隱含狄利克雷分配可能是最常見的主題模型,是一般化的PLSI,由Blei, David M.、吳恩達和Jordan, Michael I於2003年提出[3]。LDA允許文檔擁有多種主題。它用於按主題收集、分類和降低文本的維度。 LDA 是一種主題模型方法,可用於分析文檔的主題分佈。它以概率分佈的形式揭示每個文檔集的主題,以便在分析一些文檔以提取其主題分佈後,可以根據主題分佈進行主題聚類或使用文本分類。每個主題都用一個詞分佈表示。其它主題模型一般是在LDA基礎上改進的[4]。例如Pachinko分佈在LDA度量詞語關聯之上,還加入了主題的關聯度。

參見

參考

  1. ^ Papadimitriou, Christos; Raghavan, Prabhakar; Tamaki, Hisao; Vempala, Santosh. Latent Semantic Indexing: A probabilistic analysis. Proceedings of ACM PODS. 1998 [2013-08-18]. (原始內容 (Postscript)存檔於2013-05-09). 
  2. ^ Hofmann, Thomas. Probabilistic Latent Semantic Indexing (PDF). Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999 [2013-08-18]. (原始內容 (PDF)存檔於2010-12-14). 
  3. ^ Blei, David M.; Ng, Andrew Y.; Jordan, Michael I; Lafferty, John. Latent Dirichlet allocation. Journal of Machine Learning Research. January 2003, 3: 993–1022 [2013-08-18]. doi:10.1162/jmlr.2003.3.4-5.993. (原始內容存檔於2012-05-01). 
  4. ^ Zeng, L.; Li, R.Y.M.; Yigitcanlar, T.; Zeng, H. Public Opinion Mining on Construction Health and Safety: Latent Dirichlet Allocation Approach. Buildings 2023, 13, 927. https://doi.org/10.3390/buildings13040927