現(xiàn)代漢語(yǔ)未登錄詞詞類(lèi)和語(yǔ)義類(lèi)標(biāo)注研究
未登錄詞處理主要包括識(shí)別、詞類(lèi)標(biāo)注和語(yǔ)義類(lèi)標(biāo)注等內(nèi)容。目前自然語(yǔ)言處理學(xué)界對(duì)于未登錄詞識(shí)別研究較多,對(duì)于未登錄詞詞類(lèi)標(biāo)注和語(yǔ)義類(lèi)標(biāo)注則研究較少。因此,本文主要專(zhuān)注于現(xiàn)代漢語(yǔ)未登錄詞詞類(lèi)標(biāo)注和語(yǔ)義類(lèi)標(biāo)注的研究。在未登錄詞詞類(lèi)標(biāo)注和語(yǔ)義類(lèi)標(biāo)注過(guò)程中主要有兩類(lèi)可以使用的特征,即內(nèi)部特征和外部特征。所謂內(nèi)部特征指未登錄詞的成分、成分的屬性以及成分、成分屬性的組合序列;所謂外部特征指未登錄詞在語(yǔ)料中的分布,通常用未登錄詞的上下文來(lái)表示。本文在前人研究工作的基礎(chǔ)上,構(gòu)建了大規(guī)模的生語(yǔ)料庫(kù),分別使用基于內(nèi)部特征和外部特征的方法以及兩種特征相結(jié)合的方法來(lái)自動(dòng)處理未登錄詞詞類(lèi)和語(yǔ)義類(lèi)標(biāo)注的問(wèn)題。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
2000年我給北京大學(xué)中文系本科四年級(jí)學(xué)生開(kāi)“理論語(yǔ)言學(xué)”課,邱立坤是班上最喜歡提問(wèn)題和爭(zhēng)論問(wèn)題的同學(xué)之一。他也是一位癡迷語(yǔ)言學(xué)的年輕人,每次和同學(xué)或老師談起語(yǔ)言學(xué),眼睛就開(kāi)始發(fā)亮。那時(shí)候我們經(jīng)常討論句法結(jié)構(gòu)關(guān)系、語(yǔ)類(lèi)問(wèn)題和句法的初始概念問(wèn)題。我一直指導(dǎo)他的本科學(xué)位論文、碩士學(xué)位論文和博士學(xué)位論文,句法理論的基本問(wèn)題一直伴隨著我們。學(xué)習(xí)期間,立坤還選修了大量計(jì)算機(jī)課程,人和機(jī)器的關(guān)系,自然語(yǔ)言理解的概率模型和規(guī)則模型也是我們討論的重點(diǎn)。這本書(shū)是立坤在博士論文基礎(chǔ)上擴(kuò)展而成的,要解決的問(wèn)題是未登錄詞的語(yǔ)類(lèi)標(biāo)注,包括語(yǔ)法的和語(yǔ)義的。這項(xiàng)工作的意義先得從單位和規(guī)則說(shuō)起。
按照結(jié)構(gòu)語(yǔ)言學(xué)的理論,先要確定詞,再確定詞類(lèi)。詞是最小的自由形式,比如“該校、該系、該所”等分別都是詞。確定了詞以后,再根據(jù)分布確定詞類(lèi)!霸撔!边@些詞都分布在通常稱為名詞的環(huán)境中:
該校有問(wèn)題,需要對(duì)該校進(jìn)行調(diào)查
該系有問(wèn)題,需要對(duì)該系進(jìn)行調(diào)查
該所有問(wèn)題,需要對(duì)該所進(jìn)行調(diào)查
至于“該校、該系、該所”的構(gòu)詞語(yǔ)素“該、校、系、所”,盡管是最小的,但不自由,不是詞,因此無(wú)法根據(jù)自由分布的理論對(duì)這些語(yǔ)素進(jìn)行語(yǔ)法分類(lèi),也無(wú)法根據(jù)這些語(yǔ)素的分布信息來(lái)確定“該校、該系、該所”這些詞的語(yǔ)類(lèi)。概括地說(shuō),結(jié)構(gòu)語(yǔ)言學(xué)確定“該!钡恼Z(yǔ)類(lèi)必須通過(guò)“該!钡姆植。
目錄
第1章 緒論1
1.1研究對(duì)象、背景、問(wèn)題及應(yīng)用價(jià)值1
1.2研究原則、方法與技術(shù)路線4
1.3本書(shū)的組織結(jié)構(gòu)6
第2章 方法論8
2.1語(yǔ)言本體方面的相關(guān)研究8
2.2計(jì)算方面的相關(guān)研究14
2.3本書(shū)工作的方法論基礎(chǔ)18
第3章 相關(guān)資源、方法和工具23
3.1相關(guān)語(yǔ)言資源23
3.2條件隨機(jī)場(chǎng)24
3.3評(píng)測(cè)方法與評(píng)測(cè)指標(biāo)24
3.4軟件工具25
第4章 現(xiàn)代漢語(yǔ)復(fù)合詞內(nèi)部結(jié)構(gòu)詞典的構(gòu)造26
4.1漢語(yǔ)復(fù)合詞的基本構(gòu)造類(lèi)型26
4.2詞典構(gòu)建方案27
4.3自動(dòng)標(biāo)注方法28
4.4結(jié)構(gòu)分析方案、原則和方法30
4.5結(jié)構(gòu)關(guān)系類(lèi)型的判斷31
4.6成分語(yǔ)法類(lèi)的判斷32
4.7成分語(yǔ)義類(lèi)的判斷34
4.8計(jì)算機(jī)輔助人工標(biāo)注35
第5章 未登錄詞詞類(lèi)自動(dòng)標(biāo)注37
5.1基于內(nèi)部特征的模型38
5.2可信度計(jì)算40
5.3基于外部特征的詞類(lèi)標(biāo)注模型41
5.4實(shí)驗(yàn)結(jié)果43
5.5實(shí)驗(yàn)結(jié)果分析46
第6章 基于內(nèi)部特征的未登錄詞語(yǔ)義類(lèi)自動(dòng)標(biāo)注47
6.1基線模型48
6.2基于內(nèi)部特征的模型(模型1)50
6.3雙向平行類(lèi)推規(guī)則與成對(duì)替換類(lèi)推規(guī)則的分析58
6.4實(shí)驗(yàn)59
第7章 結(jié)合內(nèi)部與外部特征的未登錄詞語(yǔ)義類(lèi)自動(dòng)標(biāo)注66
7.1結(jié)合內(nèi)部特征與外部特征的模型(模型2)67
7.2實(shí)驗(yàn)72
第8章 未登錄詞語(yǔ)義類(lèi)自動(dòng)標(biāo)注的應(yīng)用81
8.1語(yǔ)義詞典修正81
8.2語(yǔ)義詞典擴(kuò)充97
第9章基于分布式詞表示的類(lèi)比識(shí)別與類(lèi)比挖掘99
9.1關(guān)系相似度任務(wù)與詞嵌入模型100
9.2服務(wù)于類(lèi)比識(shí)別的基于依存上下文的詞語(yǔ)embedding表示102
9.3改進(jìn)的類(lèi)比識(shí)別方法:使用句法依存減少搜索空間103
9.4基于依存embedding的類(lèi)比挖掘104
9.5實(shí)驗(yàn)106
結(jié)語(yǔ)114
參考文獻(xiàn)116
附錄123
附錄A雙向平行類(lèi)推規(guī)則示例(后字為共同成分)123
附錄B雙向平行類(lèi)推規(guī)則示例(前字為共同成分)133
附錄C成對(duì)替換類(lèi)推規(guī)則示例(前字為替換成分)134
附錄D成對(duì)替換類(lèi)推規(guī)則示例(后字為替換成分)150
后記163
表目錄
表4.1語(yǔ)義詞典義項(xiàng)分類(lèi)列表26
表4.2自動(dòng)分析方法標(biāo)注結(jié)果匯總30
表5.1四種特征分析方案39
表5.2低可信度序列示例41
表5.3句法模板列表(以“喜歡”為例)42
表5.4訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)中的詞長(zhǎng)分布43
表5.5基于內(nèi)部特征的四種方案的實(shí)驗(yàn)結(jié)果44
表5.6使用基于全局上下文的模型及規(guī)則之后的結(jié)果45
表5.7與Wu和Jiang(2000)所提方法的比較46
表6.1未登錄詞“文化部門(mén)”的訓(xùn)練詞語(yǔ)51
表6.2序列化子模型使用的特征模板54
表6.3SSM方法字類(lèi)關(guān)聯(lián)模型在《詞林》IV測(cè)試集上的結(jié)果61
表6.4SSM方法規(guī)則子模型在《詞林》IV測(cè)試集上的結(jié)果61
表6.5SSM方法混合模型在《詞林》IV測(cè)試集上的結(jié)果61
表6.6模型1類(lèi)類(lèi)關(guān)聯(lián)子模型在《詞林》IV集上的結(jié)果62
表6.7各種方法在《詞林》IV集上的結(jié)果比較63
表6.8SSM方法規(guī)則子模型在《HowNet》IV集上的結(jié)果63
表6.9模型1類(lèi)類(lèi)關(guān)聯(lián)子模型在《HowNet》IV集上的結(jié)果64
表6.10各模型在《HowNet》IV集上的結(jié)果比較64
表6.11各方法在《詞林》TSOOV集上的結(jié)果比較65
表7.1哈爾濱工業(yè)大學(xué)依存句法標(biāo)注體系及其含義69
表7.2上下文詞語(yǔ)頻次示例70
表7.3模型2與其他方法的比較74
表7.4權(quán)重計(jì)算方法的比較76
表7.5模型2中三個(gè)選項(xiàng)的比較77
表8.1基于成對(duì)替換類(lèi)推規(guī)則的詞典修正算法1結(jié)果分析示例84
表8.2基于雙向平行類(lèi)推規(guī)則的詞典修正算法1結(jié)果分析示例86
表8.3TS1義項(xiàng)缺失或不當(dāng)自動(dòng)發(fā)現(xiàn)結(jié)果分析90
表8.4五個(gè)昀佳候選結(jié)果98
表9.《同義詞詞林》和CWS上的漢語(yǔ)embedding評(píng)價(jià)結(jié)果108
表9.CAQS上的漢語(yǔ)embedding評(píng)價(jià)結(jié)果109
表9.Google數(shù)據(jù)集上的英語(yǔ)embedding評(píng)價(jià)結(jié)果109
表9.NG2、NG5、DEP相似詞示例110
表9.類(lèi)比挖掘?qū)嶒?yàn)結(jié)果112
圖目錄
圖5.1特征模板40
圖5.2投票標(biāo)準(zhǔn)42
圖6.1模型1步驟說(shuō)明57
圖7.1依存句法分析示例70
圖7.2權(quán)重計(jì)算方法71
圖7.3模型2F值隨K值變化曲線(0<K<80)76
圖9.1依存句法樹(shù)示例103
圖9.2基于自舉的類(lèi)比挖掘算法105