第一章 緒 論
所謂聚類分析,就是用數(shù)學的方法對事物按一定的要求進行分類。在模糊數(shù)學產(chǎn)生之前,聚類分析已是數(shù)理統(tǒng)計多元分析的一個分支,有著廣泛的實際應(yīng)用。聚類的實質(zhì)就是把具有相似性質(zhì)的事物區(qū)分開來,傳統(tǒng)的聚類分析是一種硬劃分,即把每個待辨識的對象嚴格地劃分到某類中,具有非此即彼的性質(zhì)。然而在現(xiàn)實世界中,特別是在社會、經(jīng)濟、哲學、心理、教育等人文學科當中,大多數(shù)對象并沒有嚴格的類屬特性,它們在性態(tài)和類屬方面存在著位于兩個極點之間的中間狀態(tài),即具有亦此亦彼的性質(zhì),國外有人把這些學科稱為軟科學,因此更適合進行軟劃分。事實上,這些學科之所以難于運用數(shù)學,不是因為它們太簡單而沒有資格運用數(shù)學,恰恰相反,是因為它們所面對的系統(tǒng)太復雜而找不到適當?shù)臄?shù)學工具。其中最關(guān)鍵的問題就是在這些系統(tǒng)中大量存在模糊性。當模糊理論由美國系統(tǒng)控制論專家扎德(L.A.Zadeh)于1965年首次提出后,模糊數(shù)學的一條重要的歷史使命就是要為各門學科、尤其是人文學科提供新的數(shù)學描敘的語言和工具,使軟科學研究定量化。在這樣的背景下,模糊聚類分析法也就應(yīng)運而生了。
應(yīng)用模糊數(shù)學的理論和方法,在模糊相似關(guān)系的基礎(chǔ)上所進行的聚類分析,稱為模糊聚類分析。模糊聚類分析的基本思想是:首先將所研究的n個樣本各自分為一類,然后計算它們之間的相似程度或距離,并將最相似(或距離最短)的兩類歸為新的一類,如此反復進行,直到所有樣本都歸為一類為止。迄今為止,模糊聚類分析法已在諸多領(lǐng)域得到了廣泛應(yīng)用,比如模式識別、圖像處理、信道均衡、天氣預報、災(zāi)害預測、環(huán)境保護、食品分類、地質(zhì)研究、石油與天然氣勘探、工程設(shè)計、經(jīng)濟管理、醫(yī)學診斷等等。
人文學科對模糊聚類分析法的應(yīng)用較少,因為人文學科中的研究對象一般不是用數(shù)據(jù)信息來刻畫的,這一點不同于自然學科,也成了我們選用數(shù)學方法來進行研究的障礙。一旦我們意識到這個問題,就可以想辦法將研究對象具有模糊性的表征信息數(shù)量化,從而為傳統(tǒng)的研究方法開辟新的道路。
模糊聚類分析法要求以模糊相似關(guān)系為前提,我們認為,語言中的同義詞就符合條件,即從模糊數(shù)學的視角來看,詞語之間的同義關(guān)系首先是一種模糊關(guān)系,其次它具有自反性和對稱性,屬于模糊相似關(guān)系,可以嘗試使用模糊聚類分析法。本書以此為切入點,重點論述了對語言學當中的詞匯現(xiàn)象使用模糊聚類分析法的可行性,以及使用這種新方法獲得的不同
以往的新發(fā)現(xiàn)。
模糊聚類分析法原則上適用于語言中所有的同義詞,本書選擇古代漢語同義詞作為研究對象,現(xiàn)代漢語同義詞的模糊聚類分析是我們下一步的研究目標。對同義詞進行模糊聚類分析,我們認為主要有以下幾個方面的意義和價值。
首先,可以揭示出同義詞聚合的層次性。以往對同義詞的研究只停留在判斷某詞與某詞是否具有同義關(guān)系上,通過對同義詞進行模糊聚類分析,我們可以發(fā)現(xiàn),處于同一個同義聚合體中的各個詞語,它們相互之間的聚合并不在同一平面上,而是有著不同的層次。模糊聚類分析法不僅揭示出了這種聚合層級的存在,而且還可以確定出每一層的聚合水平值,使我們能夠?qū)υ~語的同義現(xiàn)象有更為深入的認識,這對漢語詞匯研究本身是一個補充和突破。
其次,研究詞語的聚合可以為詞語的組合提供選擇。組合關(guān)系的每個位置上可能會出現(xiàn)的詞要到有關(guān)的聚合里去選擇,一般而言,組合上的不同要從聚合上去找原因。在同義詞這個聚合體中,并不是每個成員都能出現(xiàn)在不同組合關(guān)系的同一位置上,這是因為同義詞之間存在著差異。通過對同義聚合體中的詞語進行義素分析,我們可以清楚地看到這種差異并分
析造成這種差異的原因,進而滿足不同組合的需要。
最后,可以用數(shù)值精確表示出同義詞之間的相似程度,從而幫助計算機處理語言信息服務(wù)。在機器翻譯和信息檢索領(lǐng)域,同義詞之間的差異規(guī)定著詞語在翻譯和檢索中可以相互替換的程度:差異大的,詞語可替換的程度就低;差異小的,詞語可替換的程度就高。這種差異實際上反映了同義詞之間的相似程度。我們對該相似程度進行了量化和形式化的描述,這樣就可以把自然語言轉(zhuǎn)化為機器能夠識別的形式語言,從而實現(xiàn)計算機對同義詞的信息處理。
……
第一章 緒論
第一節(jié) 關(guān)于模糊聚類分析的算法
第二節(jié) 關(guān)于古代漢語的同義詞
第二章 模糊理論概述
第一節(jié) 模糊集合的提出與函數(shù)表示
第二節(jié) 普通關(guān)系與模糊關(guān)系
第三章 模糊聚類分析法及其在同義詞研究中的應(yīng)用
第一節(jié) 同義關(guān)系的模糊性及其矩陣描述
一、詞語的同義關(guān)系具有模糊性
二、模糊相似矩陣對詞語同義關(guān)系的描述
第二節(jié) 同義詞間相似系數(shù)的確定方法
一、相似性科學中關(guān)于系統(tǒng)要素相似度的計算
二、義素分析法是量化語言信息的橋梁
第三節(jié) 基于模糊等價矩陣的聚類分析
一、模糊傳遞閉包法的應(yīng)用
二、模糊聚類分析的操作舉例
第四章 基于《古辭辨》的古代漢語同義詞的模糊聚類分析
第一節(jié) 《古辭辨》名物詞的模糊聚類分析
一、隙 間 罅
二、涂 泥 墐 淖
三、纊 絮 缊
四、關(guān) 閉 扃
五、垣 墻 墉 埒
六、形 相 象 狀
第二節(jié) 《古辭辨》運動詞的模糊聚類分析
一、漬 潤 浸
二、敗 壞 毀
三、營 造 制 作
四、列 陳 羅
五、選 擇 揀 掄
六、譬 比 況 方
第三節(jié) 《古辭辨》特征詞的模糊聚類分析
一、美 好 麗
二、莊 矜 嚴 肅
三、黠 狡 猾
四、孤 獨 單 特
五、溫 暖 和
六、樸 素 質(zhì) 淳
第五章 結(jié)語
參考文獻