本書是作者在多年科學研究的基礎(chǔ)上整理完善而成的,是自然語言處理技術(shù)在文本分類領(lǐng)域應用的綜述和總結(jié),本書專業(yè)性較強,注重對技術(shù)理論依據(jù)和解決思路的精細講解,讀者可通過對本書的學習了解和掌握人工智能相關(guān)技術(shù)在網(wǎng)絡文本處理時的實現(xiàn)方法和操作流程。本書的內(nèi)容包括:文本預處理、特征表示與降維、文本分類算法、多標簽文本分類技術(shù)、短文本分類與應用等。每個章節(jié)里對關(guān)鍵的知識點進行細致講解,并通過舉例敘述的方式強化相關(guān)理論的直觀印象,將理論闡述和實例演示緊密聯(lián)系起來,方便初學者對深奧枯澀理論知識的理解和掌握,本書對提高學生理論聯(lián)系實際的能力具有較大幫助。本書可作為本科院校智能科學與技術(shù)、計算機科學與技術(shù)等專業(yè)的教材,也可供從事自然語言處理研究的人員進行參考。
前 言
文本分類是機器自然語言處理的一個重要研究方向,具有廣闊的應用領(lǐng)域和科學研究價值。本書理論性強,讀者需要有扎實的數(shù)學和統(tǒng)計學基礎(chǔ),部分內(nèi)容對于初學者來說比較難以理解。全書以文本分類的處理流程為主線組織敘述框架:對文本預處理、特征選擇與降維、常用分類算法、多標簽文本分類技術(shù)、短文本分類技術(shù)等進行了詳細的講解,圍繞文本分類處理中涉及相關(guān)技術(shù)的理論依據(jù)、實現(xiàn)思路、優(yōu)劣勢等問題展開闡述,并將一些重要的知識點通過舉例的方式直觀講解,加深讀者的理解。
文本信息機器分類涵蓋的內(nèi)容較為寬泛,敘述過程不可能面面俱到,本書以網(wǎng)絡文本作為處理對象,針對其特有的大規(guī)模、強噪音、特征表示稀疏、上下文關(guān)聯(lián)性強等特點,綜合介紹了科研工作者針對此類問題的解決思路和有效做法,并以微博信息為例,細致介紹了主題模型在網(wǎng)絡短文本處理中的應用。
本書共六章,內(nèi)容包括:緒論、文本預處理、特征表示與降維、文本分類算法、多標簽文本分類技術(shù)、短文本分類與應用。
本書由陳念、楊永超著。各章節(jié)的分工如下:第1、2、6章由陳念著,第3、4、5章由楊永超著,由陳念負責統(tǒng)稿。全書共計19.5萬字,其中陳念著9.5萬字,楊永超著10萬字。
對于本書的錯誤和不當之處,希望讀者隨時指正。
編 者
2020年4月
第1章 緒論 1
1.1 智能語言處理 1
1.1.1 NLP與文本處理 1
1.1.2 文本信息抽取 3
1.2 網(wǎng)絡文本分類應用 6
1.2.1 常見的應用領(lǐng)域 6
1.2.2 相關(guān)技術(shù)領(lǐng)域 11
1.3 文本分類步驟 15
1.3.1 文本預處理 15
1.3.2 文本分詞 18
1.3.3 特征選擇 18
1.3.4 數(shù)值化表示 19
1.3.5 分類器分類 21
1.4 本章小結(jié) 27
第2章 文本預處理 28
2.1 預處理環(huán)節(jié) 28
2.1.1 標記化 28
2.1.2 規(guī)范化 29
2.2 分詞技術(shù)應用 33
2.2.1 常見應用領(lǐng)域 33
2.2.2 應用中涉及的主要問題 36
2.3 中文分詞方法 40
2.3.1 基于詞典匹配的分詞 40
2.3.2 基于統(tǒng)計的序列標注技術(shù) 43
2.3.3 基于深度學習的分詞 53
2.4 分詞工具 54
2.4.1 Python中文分詞工具 54
2.4.2 java中文分詞工具 55
2.5 本章小結(jié) 57
第3章 特征表示與降維 58
3.1 文本表示模型 58
3.1.1 One-hot獨熱模型 58
3.1.2 向量空間模型 59
3.1.3 主題模型 60
3.1.4 神經(jīng)網(wǎng)絡語言模型 67
3.2 特征空間降維 78
3.2.1 特征選擇 79
3.2.2 特征提取 83
3.3 小結(jié) 85