跳转到内容

自然语言理解

维基百科,自由的百科全书

自然語言理解是研究如何讓電腦理解自然語言的一門技術,是自然語言處理技術中最困難的一項。一般来说,是将自然语言转换成一种形式化的表示结构。

研究問題

  1. What?:何謂理解?
  2. How?:電腦如何能理解人類語言。
  3. When?:電腦瞭解到何種程度才算理解。
  4. Where?:自然語言如何轉換成電腦可理解的結構,如何儲存。
  5. Why?:電腦真的能理解嗎?為何能、為何不能。

範疇與脈絡

自然語言理解這個概括的術語,適用於多樣的電腦應用,從小型、相對簡單之事,例如發給機器人的簡短命令,到高度複雜的任務,例如完全讀懂報紙新聞或理解一段詩。許多真實世界的運用介於兩個極端之間,例如文本分類用於自動分析電郵,並且將其轉發至公司適合的部門,並不需要深切理解文本[1],但是比起結構固定的資料庫之查詢,要處理的詞彙以及句法更廣更多樣。

自然語言理解系統設定的目標深度與廣度,決定其複雜度(連帶隱含的挑戰)與處理的應用類型。系統的廣度以其詞彙及文法的多寡來衡量;系統的深度以其相對於母語人士的理解程度來衡量。「近似英語」指令的翻譯程式屬於最窄淺的一種,但處理的應用也少。狹窄但深入的系統探究並模擬理解的機制[2],但應用範圍仍然有限。超越簡單關鍵字對比的文件內容理解系統,例如判斷新聞稿是否適合某讀者,屬於比較寬廣的系統,也算複雜[3],但是仍然有些淺薄。既廣且深的系統,現今的尖端技術仍無法達成。

元件與系統結構

無論什麼手法,多數自然語言理解系統包含一些共同的元件。系統需要其語言的詞彙表語法分析器以及 語法的規則,從而分解語句成為內在的表述。建立具有適當本體的、多量的詞彙表,是件大工程,例如WordNet的詞彙表耗費多年人力[4]

系統也需要「語義理論」去引導理解。語言理解系統的解析能力有賴於使用的語義理論。互競的語義理論,作為電腦自動語義解析的基礎,各有其特定的平衡取捨[5]。理論從「素樸語義學英语naive semantics」或 「隨機語義分析英语stochastic semantic analysis」到利用「語用學」從上下文得出意涵[6][7][8]

自然語言理解的高級應用也會在其框架內納入邏輯推理,其過程是將得出的意涵對應到一階邏輯的一組論斷,然後用演繹推理得到結論。

自然語言理解的文本脈絡處理可能遭遇難關,各種各樣的例子與反例,造成了脈絡形式模擬的多重途徑,各有特定的強弱之處[9][10]

應用

  1. 人機交談:電腦如何能與人交談?
  2. 機器翻譯:電腦如何將一篇英文文章翻譯成中文?
  3. 自動摘要:電腦如何對文章進行摘要?

研究者

  • 英語觀點的研究人員
    • R.C.Schank : Script, Conceptual Dependency Theory.
    • Fillmore : 格语法(Case Grammar).

參考文獻

  1. ^ An approach to hierarchical email categorization by Peinfeng Li et al. in Natural language processing and information systems edited by Zoubida Kedad, Nadira Lammari 2007 ISBN 3-540-73350-7
  2. ^ Building Working Models of Full Natural-Language Understanding in Limited Pragmatic Domains by James Mason 2010 [1]页面存档备份,存于互联网档案馆
  3. ^ Mining the Web: discovering knowledge from hypertext data by Soumen Chakrabarti 2002 ISBN 1-55860-754-4 page 289
  4. ^ G. A. Miller, R. Beckwith, C. D. Fellbaum, D. Gross, K. Miller. 1990. WordNet: An online lexical database. Int. J. Lexicograph. 3, 4, pp. 235-244.
  5. ^ Using computers in linguistics: a practical guide by John Lawler, Helen Aristar Dry 198 ISBN 0-415-16792-2 page 209
  6. ^ Naive semantics for natural language understanding by Kathleen Dahlgren 1988 ISBN 0-89838-287-4
  7. ^ Stochastically-based semantic analysis by Wolfgang Minker, Alex Waibel, Joseph Mariani 1999 ISBN 0-7923-8571-3
  8. ^ Pragmatics and natural language understanding by Georgia M. Green 1996 ISBN 0-8058-2166-X
  9. ^ Understanding language understanding by Ashwin Ram, Kenneth Moorman 1999 ISBN 0-262-18192-4 page 111
  10. ^ Formal aspects of context by Pierre Bonzon et al 2000 ISBN 0-7923-6350-7
  11. ^ 存档副本. [2005-07-13]. (原始内容存档于2017-03-24). 
  12. ^ [2]
  13. ^ [3]