123,123,123

基于HowNet的词语相关度计算模型

来源：微型机与应用2012年第8期

曾淑琴，吴扬扬

(华侨大学计算机科学与技术学院，福建厦门361021)

摘要： 提出了词语相关度模型，作为在数据空间中发现数据源内容关联的一个基础。本模型基于HowNet，可以计算同种词性以及不同词性之间的相关度，融合了词语的相似度、关联度和实例因素,综合获得词语的内在相关性。通过对比实验发现，本模型所计算的词语相关度值更加符合人们主观上对词语相关性的认识。

關(guān)鍵詞： 软件数据空间 HowNet 词语相关度

Abstract：

Key words :

摘要： 提出了詞語(yǔ)相關(guān)度模型，作為在數(shù)據(jù)空間中發(fā)現(xiàn)數(shù)據(jù)源內(nèi)容關(guān)聯(lián)的一個(gè)基礎(chǔ)。本模型基于HowNet，可以計(jì)算同種詞性以及不同詞性之間的相關(guān)度，融合了詞語(yǔ)的相似度、關(guān)聯(lián)度和實(shí)例因素,綜合獲得詞語(yǔ)的內(nèi)在相關(guān)性。通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)，本模型所計(jì)算的詞語(yǔ)相關(guān)度值更加符合人們主觀上對(duì)詞語(yǔ)相關(guān)性的認(rèn)識(shí)。
關(guān)鍵詞： 數(shù)據(jù)空間；HowNet；詞語(yǔ)相關(guān)度

    語(yǔ)義相關(guān)度的研究是自然語(yǔ)義處理NLP(Natural Language Processing)的基礎(chǔ)，廣泛用于語(yǔ)義消歧、信息檢索、文本分類、文本聚類等領(lǐng)域。本文將其作為數(shù)據(jù)空間[1]研究課題的基礎(chǔ)性內(nèi)容來(lái)研究，旨在從內(nèi)容上發(fā)現(xiàn)數(shù)據(jù)空間中的數(shù)據(jù)源之間的關(guān)聯(lián)。
   關(guān)于語(yǔ)義相關(guān)度的研究在國(guó)外較多，目前的方法一般分為兩類[2]：一種是統(tǒng)計(jì)方法，另一種是基于語(yǔ)義詞典方法。Jiang和Conrath利用Wordnet圖的上位關(guān)系，通過(guò)合并概念c1和c2的信息內(nèi)容以及最小的共同類屬者，綜合基于邊以及結(jié)點(diǎn)的技術(shù)，再用語(yǔ)料庫(kù)統(tǒng)計(jì)作為輔助因素進(jìn)行矯正[2]；Banerjee和Pedersen在Wordnet的英文語(yǔ)境下，將單詞的解釋中重疊的單詞數(shù)量的平方，及含有上下文等關(guān)系類型的詞語(yǔ)的單詞重疊的數(shù)量的平方之和，共同作為最后詞語(yǔ)相關(guān)度的值[2]。
   國(guó)內(nèi)在語(yǔ)義相關(guān)方面的研究還較欠缺，且大多數(shù)選擇英文環(huán)境，主要基于HowNet、詞林、維基百科等知識(shí)庫(kù)[3-5]。參考文獻(xiàn)[3]根據(jù)知網(wǎng)中的特征文件下位義原和上位義原擁有的屬性以及縱向語(yǔ)義聯(lián)系和實(shí)例信息計(jì)算詞語(yǔ)的相關(guān)度。參考文獻(xiàn)[4]通過(guò)挖掘直接或間接的關(guān)系而提出的新的語(yǔ)義相關(guān)度計(jì)算模型，適用于類似知網(wǎng)的知識(shí)體系?？偨Y(jié)基于語(yǔ)義詞典度量語(yǔ)義相關(guān)度所考慮的因素，即最短路徑長(zhǎng)度、局部網(wǎng)絡(luò)密度、結(jié)點(diǎn)在層次中的深度、連接的類型、概念結(jié)點(diǎn)的信息含量以及概念的釋義，將上述6個(gè)因素歸為三大類：結(jié)構(gòu)特點(diǎn)、信息量和概念釋義。
   本文在綜合了參考文獻(xiàn)[3]中所提到的基本義原相似度和關(guān)聯(lián)度以及其他相關(guān)研究的基礎(chǔ)上定義了一個(gè)詞語(yǔ)相關(guān)度算法模型，實(shí)現(xiàn)計(jì)算同種詞性、不同詞性詞語(yǔ)之間的相關(guān)度。
1 知網(wǎng)
   中國(guó)人民大學(xué)的董振東教授等人編寫的《知網(wǎng)》以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象，包含豐富詞匯，反映概念的共性和個(gè)性，是以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)。
   知網(wǎng)中的語(yǔ)義通過(guò)義原描述，共有1 618個(gè)義原被分成 10大類，每一類都是由一個(gè)樹結(jié)構(gòu)來(lái)存儲(chǔ)，而不同類之間的義原構(gòu)成一個(gè)網(wǎng)狀結(jié)構(gòu)，它們通過(guò)解釋義原關(guān)聯(lián)起來(lái)。知網(wǎng)中的詞語(yǔ)關(guān)系類型[6]如表1所示。

2 語(yǔ)義相關(guān)度模型
2.1 語(yǔ)義相關(guān)概念
   定義1 語(yǔ)義相似度是指兩個(gè)詞在不同的上下文中可以互相替換使用而不改變文本的句法語(yǔ)義結(jié)構(gòu)的程度[7]。
   定義2 詞語(yǔ)關(guān)聯(lián)度是指詞語(yǔ)在概念解釋上所存在的語(yǔ)義關(guān)系的程度。
   定義3 詞語(yǔ)相關(guān)度是指詞語(yǔ)間含有表1中的關(guān)系類型或存在詞語(yǔ)隱含傳遞等相互關(guān)聯(lián)的特性，即兩個(gè)詞語(yǔ)相互關(guān)聯(lián)的程度從側(cè)面反映了兩個(gè)詞語(yǔ)在同一個(gè)語(yǔ)境中共現(xiàn)的可能性，其影響因素有詞語(yǔ)的相似性以及關(guān)聯(lián)性等。
   鑒于目前國(guó)內(nèi)還沒(méi)有對(duì)相關(guān)度判斷的標(biāo)準(zhǔn)和類似的專門人工判斷的詞集，本實(shí)驗(yàn)中對(duì)相關(guān)度的判斷主要從兩個(gè)方面來(lái)界定：一是依據(jù)上文的定義；二是通過(guò)對(duì)比參考文獻(xiàn)[3]中相關(guān)度的實(shí)驗(yàn)結(jié)果，改進(jìn)其中一些明顯不合理的實(shí)驗(yàn)結(jié)果來(lái)確認(rèn)本方法的改進(jìn)性。
2.2 建立詞語(yǔ)語(yǔ)義相關(guān)度模型
   通過(guò)對(duì)知網(wǎng)結(jié)構(gòu)的分析，根據(jù)如下幾個(gè)因素計(jì)算語(yǔ)義相關(guān)度：
   （1）詞語(yǔ)的相似度
   知網(wǎng)中的詞語(yǔ)通過(guò)一個(gè)記錄來(lái)表示，其中有一項(xiàng)語(yǔ)義表達(dá)式DEF對(duì)該詞語(yǔ)進(jìn)行描述，語(yǔ)義表達(dá)式由概念和義原組成。知網(wǎng)中義原有3個(gè)類別，另有一些關(guān)系符號(hào)對(duì)概念的語(yǔ)義進(jìn)行描述的義原，因此，可以將義原分為基本義原、其他義原、關(guān)系義原以及關(guān)系符號(hào)義原。詞語(yǔ)的相似度可以通過(guò)這4種義原類型求得。
   采用下列方法計(jì)算兩個(gè)詞語(yǔ)之間的相似度：將兩個(gè)詞語(yǔ)的語(yǔ)義表達(dá)式中的義原抽取出來(lái)，計(jì)算對(duì)應(yīng)義原類型的相似度。如果某一義原類型的對(duì)應(yīng)項(xiàng)為空，則將任何義原(或具體詞)與空值的相似度定義為一個(gè)比較小的常數(shù)；如果某一義原類型包含多個(gè)義原，則將各個(gè)義原的相似度加權(quán)平均作為該類型義原的相似度[7]。
      第一基本義原即主要特征義原，兩個(gè)詞語(yǔ)的這一部分的相似度采用式（1）計(jì)算：

    關(guān)系義原即對(duì)應(yīng)于所有關(guān)系義原描述式，其值是一個(gè)特征結(jié)構(gòu)，記為：sim3(p1，p2)。
   關(guān)系符號(hào)義原即對(duì)應(yīng)于關(guān)系符號(hào)描述式，其值是一個(gè)特征結(jié)構(gòu)，記為：sim4(p1，p2)。
   于是，兩個(gè)概念(義項(xiàng))語(yǔ)義表達(dá)式的整體相似度為[6]：

    （3）實(shí)例因素
   實(shí)例因素模型即義項(xiàng)的實(shí)例單詞的集合，實(shí)例因素對(duì)相關(guān)度的影響[3]：

    從表2可知，“中國(guó)”和“美國(guó)”在參考文獻(xiàn)[7]中的相似度特別高。主要是它用其距離的倒數(shù)作為其第一義原，會(huì)出現(xiàn)分類不明確的情況，本文采用的S型激活函數(shù)所劃分的區(qū)域，分類比線性劃分精確合理，所計(jì)算值也更合理。“男人”和“父親”的相似度為1，“香蕉”和“蘋果”也為1，顯然太過(guò)粗糙，這種劃分分類的方法確實(shí)存在著許多缺陷，且算出的值在客觀事實(shí)之外，本文通過(guò)修改第一義原的定義和計(jì)算，所得出的相似度分別為0.408 88和0.525 797，相比而言更合理。
   上述實(shí)驗(yàn)都是同種詞性的相似度，而相似只是相關(guān)的一個(gè)方面，故而進(jìn)行下面實(shí)驗(yàn)，進(jìn)一步量化同種詞性和不同詞性之間的相關(guān)度，通過(guò)對(duì)比參考文獻(xiàn)[3]的結(jié)果進(jìn)行說(shuō)明。結(jié)果如表3所示。
   由表3可以看出，用參考文獻(xiàn)[7]所述方法算出的相似度比較粗糙，例如面包和報(bào)紙的相似度比面包和蘋果的相似度還要高，這顯然不太合理，在義原樹中，僅僅考慮語(yǔ)義距離，確實(shí)“面包”和“報(bào)紙”的距離更近，分析發(fā)現(xiàn)，這是因?yàn)闆](méi)有考慮義原關(guān)聯(lián)度原因?qū)е碌模疚挠?jì)算出來(lái)的結(jié)果對(duì)比參考文獻(xiàn)[7]和參考文獻(xiàn)[3]，結(jié)果更合理些。

    在參考文獻(xiàn)[3]的結(jié)果中，“面包”和“巧克力”的相關(guān)度為1，這顯然與事實(shí)不符，通常認(rèn)為相關(guān)度為1是完全相關(guān)，趨于同一個(gè)事物，雖然這兩個(gè)詞語(yǔ)同屬于“食品”范疇，關(guān)聯(lián)度方面確實(shí)很大，可是相似度方面卻相差甚遠(yuǎn)，因此其相關(guān)度值不可能為1。此外，對(duì)事物的看法傾向于一個(gè)動(dòng)賓方式，“削”和“皮”與“削”和“刀”，后者的搭配中表明用“刀”進(jìn)行“削”，但是也存在用別的東西來(lái)“削”，而“削皮”這個(gè)搭配在人的直觀認(rèn)知中應(yīng)該更加相關(guān)，故而“削”和“皮”的相關(guān)度應(yīng)該更甚于“削”和“刀”，在本文方法中前者為0.096 533，后者為0.058 880，也符合習(xí)慣使用上對(duì)相關(guān)度的主觀判斷。另外經(jīng)分析可以看出，本文方法計(jì)算出來(lái)的數(shù)值都會(huì)偏小一些，且不會(huì)出現(xiàn)極端值問(wèn)題，比較平穩(wěn)，從整體上改進(jìn)了參考文獻(xiàn)[3]中的實(shí)驗(yàn)結(jié)果。
   實(shí)驗(yàn)所存在的不足是結(jié)果對(duì)比不夠明顯，只是改進(jìn)了偏差比較大的結(jié)果，其原因有兩方面，一是對(duì)于相關(guān)度的度量確實(shí)是一個(gè)比較主觀的做法，且目前沒(méi)有基于統(tǒng)計(jì)的相關(guān)度的判斷標(biāo)準(zhǔn)，因此很難從微觀上細(xì)小地區(qū)分方法的優(yōu)劣；其次，知網(wǎng)本身有待進(jìn)一步完善和補(bǔ)充外，通過(guò)義原的相似度(相對(duì)稀疏的層次結(jié)構(gòu))來(lái)反映大量詞語(yǔ)之間的相似度(相對(duì)密集)的方法本身是否存在一定的上限還需要進(jìn)一步深入研究，且許多詞語(yǔ)的編撰的定義項(xiàng)存在著一些不完整的方面。
   本實(shí)驗(yàn)通過(guò)自適應(yīng)的參數(shù)來(lái)進(jìn)行調(diào)整，沒(méi)有固定權(quán)值，考慮到的是動(dòng)詞間、名詞間以及名詞之間和動(dòng)詞間，其所側(cè)重的因素不同，如名詞之間的相關(guān)度計(jì)算，相似度占的比重更大，而在動(dòng)詞和名詞間，相似度比重應(yīng)該較小，關(guān)聯(lián)度應(yīng)占更大的比重，這樣才更加合理，因此，自動(dòng)調(diào)整好各參數(shù)，偏向各自比較側(cè)重的因素，以便獲得更好的效果。
   詞語(yǔ)的語(yǔ)義相關(guān)度研究在國(guó)內(nèi)并不多，本文以知網(wǎng)為知識(shí)庫(kù)，在參考文獻(xiàn)[3]的基礎(chǔ)上改進(jìn)算法模型，以此提出的相關(guān)度模型所得出的結(jié)果比較符合人類主觀上對(duì)相關(guān)度的認(rèn)識(shí)。
   今后的工作主要是將此詞語(yǔ)相關(guān)度模型應(yīng)用到數(shù)據(jù)空間中數(shù)據(jù)源內(nèi)容關(guān)聯(lián)性的發(fā)現(xiàn)機(jī)制中去，提出一個(gè)基于語(yǔ)義模式匹配的相關(guān)性匹配策略，以本文中的詞語(yǔ)相關(guān)度模型為依托，從而發(fā)現(xiàn)數(shù)據(jù)空間內(nèi)部的各種數(shù)據(jù)源的聯(lián)系性。
參考文獻(xiàn)
[1] 李玉坤,孟小峰，張相於.數(shù)據(jù)空間技術(shù)研究[J].軟件學(xué)報(bào)，2008，19(8)：2018-2031.
[2] Hua Yu，Jiang Hong，Zhu Yifeng，et al.Smart Store：a new metadata organization paradigm with metadata semantic-awareness for next-generation file systems[C].University of Nebraska-Liclon，Computer Science and Engineering，2008.
[3] 許云，樊孝忠，張鋒.基于知網(wǎng)的語(yǔ)義相關(guān)度計(jì)算[J].北京理工大學(xué)學(xué)報(bào)，2005，25(5)：411-414.
[4] 王紅玲，呂強(qiáng)，徐瑞.一種基于知網(wǎng)的中文語(yǔ)義相關(guān)度計(jì)算模型[C].蘇州：第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議，2007.
[5] 李峰，李芳.中文詞語(yǔ)語(yǔ)義相似度計(jì)算—基于知網(wǎng)2000[J].中文信息學(xué)報(bào)，2007，21(3)：101-107.
[6] 李素建.基于語(yǔ)義計(jì)算的語(yǔ)句相關(guān)度研究[J].計(jì)算機(jī)工程與應(yīng)用，2002，38(7)：75-76.
[7] 劉群，李素健.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C].臺(tái)北：第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)，2002.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容