口語語料庫 - 維基百科，自由的百科全書

此條目需要擴充。 (2014年6月12日)
請協助改善這篇條目，更進一步的訊息可能會在討論頁或擴充請求中找到。請在擴充條目後將此模板移除。

此條目已列出參考文獻，但因為沒有文內引註而使來源仍然不明。 (2014年6月12日)
請加上合適的文內引註來改善這篇條目。

口語語料庫為語言音頻文件和文字副本的數據庫。在語音技術（英語：Speech technology）里，口語語料庫可用於創建聲學模型，配合語音識別引擎使用。在語言學里，口語語料庫可用於語音學、會話分析（英語：Conversation Analysis）、方言學等方面的研究。

口語語料庫主要分為朗讀語料和自然口語兩類。

參考文獻

Edwards, Jane / Lampert, Martin (eds.) (1992): Talking Data – Transcription and Coding in Discourse Research. Hillsdale: Erlbaum.
Leech, Geoffrey / Myers, Greg / Thomas, Jenny (eds.) (1995): Spoken English on Computer: Transcription, Markup and Application. Harlow: Longman.

閱論編自然語言處理
一般術語	語料庫口語語料庫停用詞詞袋完全人工智能（英語：AI-complete） n元語法（雙字母組、三元語法（英語：Trigrams））
文本挖掘	文本分割詞性標註（英語：Part-of-speech tagging）拆句處理（英語：Shallow parsing）複合詞處理（英語：Compound term processing）搭配提取（英語：Collocation extraction）詞幹提取詞形還原命名實體識別指代文本情感分析概念挖掘（英語：Concept mining）語法分析詞義消歧術語提取（英語：Terminology extraction）真實大小寫處理（英語：Truecasing）
自動摘要（英語：Automatic summarization）	多文檔摘要（英語：Multi-document summarization）句子抽取（英語：Sentence extraction）文本簡化（英語：Text simplification）
分佈語義（英語：Distributional semantics）模型	潛在語義學 Seq2Seq模型 Word2vec 語言模型大型語言模型基礎模型 LLaMA ChatGPT GPT-4 文心一言詞嵌入
機器翻譯	電腦輔助翻譯基於實例（英語：Example-based machine translation）基於規則（英語：Rule-based machine translation）
自動識別與數據採集	語音識別語音合成光學字符識別自然語言生成提示工程
主題模型	彈珠分佈（英語：Pachinko allocation）隱含狄利克雷分佈潛在語義索引
計算機輔助審查（英語：Computer-assisted reviewing）	自動作文評分（英語：Automated essay scoring）語料庫檢索工具（英語：Concordancer）文法檢查器（英語：Grammar checker）預測文本（英語：Predictive text）拼寫檢查語法猜測（英語：Syntax guessing）
自然語言用戶界面（英語：Natural language user interface）	自動在線助手聊天機械人文字冒險遊戲問答系統