本書在全面介紹文本信息抽取技術在古籍文本處理方面應用的基礎上,著重介紹文本信息抽取與知識挖掘的基本概念、原理和方法,包括文本預處理、特征提取、命名實體識別、信息抽取、語義分析、知識表示等關鍵技術。
全書共3部分: 第1部分(第1、2章)著重介紹古籍文本信息抽取的相關背景知識; 第2部分(第3~8章)著重討論命名實體識別、關系抽取和事件抽取的具體方法,同時介紹對應的實驗應用及結果分析; 第3部分(第9章)基于對當前實體抽取領域研究現(xiàn)狀的分析與總結,展望未來。同時,全書也提供了大量應用實例。
本書適合作為高等院校計算機、軟件工程及相關專業(yè)本科生、研究生的參考書,也可供對自然語言處理比較熟悉并且對信息抽取有所了解的開發(fā)人員、廣大科技工作者和研究人員學習使用。
古籍文本信息抽取與挖掘的重要性在于保護和傳承人類的文化遺產,以及促進學術研究和歷史探索。古籍文本是記錄了古代知識、思想、文化和歷史的寶貴資源。通過對古籍文本進行信息抽取,可以從大量的文字資料中提取出有用的信息,為人們的研究和了解相關題材提供重要的線索和指引。
本書全面介紹文本信息抽取與知識挖掘的基本概念、原理和方法,包括文本預處理、特征提取、命名實體識別(NER)、信息抽取、語義分析、知識表示等關鍵技術。讀者可了解每種實施方法及其執(zhí)行流程。
本書中提供一系列實用的方法和工具,指導讀者在實際應用中進行文本信息抽取和知識挖掘。這些方法和工具包括基于規(guī)則的抽取、統(tǒng)計方法、機器學習和深度學習技術等。讀者可以通過實例和案例學習如何選擇適當?shù)姆椒ê凸ぞ撸⑵鋺糜谧约旱捻椖繉嵺`中。
本書以文本信息抽取的基礎知識為基點,通過理論與實踐相結合,重點介紹實體抽取與關系抽取(RE)的技術方法,及其在中國少數(shù)民族古籍總目提要數(shù)據(jù)集上的實際應用; 針對NER,介紹基于Transformer模型的方法和基于提示學習的方法; 針對RE,介紹基于遠程監(jiān)督的方法和基于遷移學習的方法; 針對事件抽取(EE),介紹聯(lián)合模型的EE和篇章級的EE。
全書共9章。第1章為緒論,介紹古籍文本信息抽取的研究背景與意義,以及信息抽取的相關定義和基本方法。第2章詳細介紹信息抽取的概念和基礎理論,并淺析古籍文本信息抽取的應用領域。第3、4章介紹NER的核心方法,分別是基于Transformer模型的方法和基于提示學習的方法。第5、6章介紹實體RE的核心方法,分別是基于遠程監(jiān)督的方法和基于遷移學習的方法。第7、8章介紹EE的核心方法,分別是聯(lián)合模型的EE和篇章級的EE方法。在第3~8章中,每一個方法都提供了相應的實驗及對實驗結果的分析。第9章為總結與展望,主要內容是對當前在實體RE領域相關技術的總結及對于此領域內技術未來發(fā)展方向的展望。
本書可以作為計算機、軟件工程及相關專業(yè)學生實體抽取文本信息抽取信息挖掘等課程的參考書,同時也可作為計算機從業(yè)人員實體RE、EE、文本信息挖掘相關知識的入門學習資料。讀者最好在學習過人工智能機器學習深度學習等相關課程后再學習本書及自然語言處理的相應課程。
本書在編寫過程中得到中央民族大學信息工程學院的研究生穆日亙、毛寧靜、丁福森、李蕊、王文涵、張小苗、儀超、金明哲的大力支持,在此表示衷心的感謝。同時,還需感謝本書后參考文獻的作者,感謝他們的資料對本書的指導。感謝清華大學出版社編輯們對本書的出版給予的寶貴建議。
在本書的撰寫和相關技術的研究中,由于編者受知識水平所限及時間倉促,書中錯誤與疏漏之處在所難免,敬請廣大讀者批評指正。
盧勇
2024年8月
第1章緒論
1.1研究背景與意義
1.1.1古籍文本信息抽取的重要性
1.1.2古籍文本信息抽取的應用領域
1.1.3古籍文本信息抽取的目的
1.2信息抽取與知識挖掘的基本概念
1.2.1NER
1.2.2RE
1.2.3EE
1.3NER技術
1.3.1基于規(guī)則方法的NER技術
1.3.2基于統(tǒng)計模型的NER技術
1.3.3基于深度學習方法的NER技術
第2章古籍文本信息抽取概述與基礎理論
2.1古籍文本信息抽取的挑戰(zhàn)與難點
2.1.1信息抽取
2.1.2古籍文本中的信息抽取
2.2古籍文本信息抽取的任務
2.3古籍文本信息抽取相關技術
2.3.1詞匯語義表示
2.3.2CRF模型
2.3.3CNN信息抽取模型
2.3.4RNN信息抽取
2.3.5圖卷積信息抽取模型
2.3.6遷移學習信息抽取模型
2.4古籍文本信息抽取的應用領域
2.4.1古籍數(shù)字化
2.4.2古籍文本分析
2.4.3文化遺產保護
2.4.4古籍知識圖譜構建
第3章基于Transformer模型的NER
3.1引言
3.2問題引入
3.3基于分層Transformer模型的NER
3.3.1引言
3.3.2實現(xiàn)原理與步驟
3.3.3基本結構與訓練方法
3.3.4示例
3.3.5實驗分析
3.4基于BERTCRF的NER
3.4.1引言
3.4.2問題引入
3.4.3相關工作
3.4.4模型結構
3.4.5實驗結果
3.5基于遷移學習的細粒度BERT的NER
3.5.1引言
3.5.2問題引入
3.5.3實驗過程
3.5.4實驗結果
第4章基于提示學習的NER
4.1引言
4.2問題引入
4.3基于模板的提示學習NER
4.3.1引言
4.3.2相關工作
4.3.3使用BART基于模板的NER
4.3.4實驗結果
4.4融合注意力層的提示學習NER
4.4.1引言
4.4.2低資源NER實驗過程
4.4.3實驗結果
4.5基于問答的提示學習NER
4.5.1引言
4.5.2相關工作
4.5.3方法
4.5.4實驗結果
第5章基于遠程監(jiān)督的RE
5.1引言
5.2問題引入
5.3基于對抗學習的遠程監(jiān)督RE
5.3.1引言
5.3.2相關工作
5.3.3方法
5.3.4實驗設置
5.4基于深度強化學習的遠程監(jiān)督RE
5.4.1引言
5.4.2相關工作
5.4.3實驗過程
5.5基于句子級別注意力機制的遠程監(jiān)督RE
5.5.1引言
5.5.2相關工作
5.5.3方法
5.5.4實驗結果
5.5.5比較
5.6基于實體級別注意力機制的遠程監(jiān)督RE
5.6.1引言
5.6.2相關工作
5.6.3融入多實例學習的基于分段CNN的RE
5.6.4實驗結果
5.7基于圖卷積的遠程監(jiān)督RE
5.7.1引言
5.7.2相關工作
5.7.3利用輔助信息進行遠程監(jiān)督神經RE
5.7.4實驗結果
第6章基于遷移學習的實體RE
6.1引言
6.2問題引入
6.3基于樣本遷移的實體RE
6.3.1引言
6.3.2問題引入
6.3.3實驗分析
6.3.4實驗結果
6.4基于特征遷移的實體RE
6.4.1引言
6.4.2相關工作
6.4.3學習深度簡約表示
6.4.4基于聚類的正則化方法應用于實體RE
6.5基于關系遷移的實體RE
6.5.1基于關系遷移的實體RE的概念
6.5.2基于關系遷移的實體RE的步驟
6.5.3基于關系遷移的實體RE的模型結構
6.5.4基于關系遷移的實體RE的相關工作
6.5.5實驗分析
第7章聯(lián)合模型的EE
7.1引言
7.2問題引入
7.3級聯(lián)解碼聯(lián)合學習的EE方法
7.3.1引言
7.3.2問題引入
7.3.3模型介紹
7.3.4實驗過程
7.4共享隱藏表示方式的EE方法
7.4.1引言
7.4.2問題引入
7.4.3模型
7.4.4模型實驗表現(xiàn)
7.5基于轉換的神經網絡的EE方法
7.5.1引言
7.5.2轉換系統(tǒng)介紹
7.5.3基于轉換的神經網絡模型介紹
7.5.4實驗結果
第8章篇章級的EE
8.1引言
8.2問題引入
8.3中心語引導的篇章級EE
8.3.1引言
8.3.2相關工作
8.3.3方法
8.3.4實驗結果
8.3.5比較
8.4跨句論元抽取的篇章級EE
8.4.1引言
8.4.2相關工作
8.4.3角色填充實體提取任務和評估指標
8.4.4將REE作為序列生成任務
8.4.5GRIT模型
8.4.6實驗設置及結果
8.5多粒度閱讀的篇章級EE
8.5.1引言
8.5.2相關工作
8.5.3實驗方法
8.5.4實驗結果
第9章總結與展望
9.1總結
9.2展望
9.2.1NER技術未來發(fā)展展望
9.2.2RE技術未來發(fā)展展望
9.2.3EE技術未來發(fā)展展望
參考文獻