《電子技術應用》
您所在的位置:首頁 > 嵌入式技术 > 设计应用 > 基于HowNet的词语相关度计算模型
基于HowNet的词语相关度计算模型
来源:微型机与应用2012年第8期
曾淑琴,吴扬扬
(华侨大学 计算机科学与技术学院,福建 厦门361021)
摘要: 提出了词语相关度模型,作为在数据空间中发现数据源内容关联的一个基础。本模型基于HowNet,可以计算同种词性以及不同词性之间的相关度,融合了词语的相似度、关联度和实例因素,综合获得词语的内在相关性。通过对比实验发现,本模型所计算的词语相关度值更加符合人们主观上对词语相关性的认识。
Abstract:
Key words :

摘  要: 提出了詞語相關度模型,作為在數(shù)據(jù)空間中發(fā)現(xiàn)數(shù)據(jù)源內(nèi)容關聯(lián)的一個基礎。本模型基于HowNet,可以計算同種詞性以及不同詞性之間的相關度,融合了詞語的相似度、關聯(lián)度和實例因素,綜合獲得詞語的內(nèi)在相關性。通過對比實驗發(fā)現(xiàn),本模型所計算的詞語相關度值更加符合人們主觀上對詞語相關性的認識。
關鍵詞: 數(shù)據(jù)空間;HowNet;詞語相關度

    語義相關度的研究是自然語義處理NLP(Natural Language Processing)的基礎,廣泛用于語義消歧、信息檢索、文本分類、文本聚類等領域。本文將其作為數(shù)據(jù)空間[1]研究課題的基礎性內(nèi)容來研究,旨在從內(nèi)容上發(fā)現(xiàn)數(shù)據(jù)空間中的數(shù)據(jù)源之間的關聯(lián)。
    關于語義相關度的研究在國外較多,目前的方法一般分為兩類[2]:一種是統(tǒng)計方法,另一種是基于語義詞典方法。Jiang和Conrath利用Wordnet圖的上位關系,通過合并概念c1和c2的信息內(nèi)容以及最小的共同類屬者,綜合基于邊以及結點的技術,再用語料庫統(tǒng)計作為輔助因素進行矯正[2];Banerjee和Pedersen在Wordnet的英文語境下,將單詞的解釋中重疊的單詞數(shù)量的平方,及含有上下文等關系類型的詞語的單詞重疊的數(shù)量的平方之和,共同作為最后詞語相關度的值[2]。
    國內(nèi)在語義相關方面的研究還較欠缺,且大多數(shù)選擇英文環(huán)境,主要基于HowNet、詞林、維基百科等知識庫[3-5]。參考文獻[3]根據(jù)知網(wǎng)中的特征文件下位義原和上位義原擁有的屬性以及縱向語義聯(lián)系和實例信息計算詞語的相關度。參考文獻[4]通過挖掘直接或間接的關系而提出的新的語義相關度計算模型,適用于類似知網(wǎng)的知識體系??偨Y基于語義詞典度量語義相關度所考慮的因素,即最短路徑長度、局部網(wǎng)絡密度、結點在層次中的深度、連接的類型、概念結點的信息含量以及概念的釋義,將上述6個因素歸為三大類:結構特點、信息量和概念釋義。
    本文在綜合了參考文獻[3]中所提到的基本義原相似度和關聯(lián)度以及其他相關研究的基礎上定義了一個詞語相關度算法模型,實現(xiàn)計算同種詞性、不同詞性詞語之間的相關度。
1 知網(wǎng)
    中國人民大學的董振東教授等人編寫的《知網(wǎng)》以漢語和英語的詞語所代表的概念為描述對象,包含豐富詞匯,反映概念的共性和個性,是以揭示概念與概念之間以及概念所具有的屬性之間的關系為基本內(nèi)容的常識知識庫。
    知網(wǎng)中的語義通過義原描述,共有1 618個義原被分成 10大類,每一類都是由一個樹結構來存儲,而不同類之間的義原構成一個網(wǎng)狀結構,它們通過解釋義原關聯(lián)起來。知網(wǎng)中的詞語關系類型[6]如表1所示。


2 語義相關度模型
2.1 語義相關概念

    定義1 語義相似度是指兩個詞在不同的上下文中可以互相替換使用而不改變文本的句法語義結構的程度[7]。
    定義2 詞語關聯(lián)度是指詞語在概念解釋上所存在的語義關系的程度。
    定義3 詞語相關度是指詞語間含有表1中的關系類型或存在詞語隱含傳遞等相互關聯(lián)的特性,即兩個詞語相互關聯(lián)的程度從側面反映了兩個詞語在同一個語境中共現(xiàn)的可能性,其影響因素有詞語的相似性以及關聯(lián)性等。
    鑒于目前國內(nèi)還沒有對相關度判斷的標準和類似的專門人工判斷的詞集,本實驗中對相關度的判斷主要從兩個方面來界定:一是依據(jù)上文的定義;二是通過對比參考文獻[3]中相關度的實驗結果,改進其中一些明顯不合理的實驗結果來確認本方法的改進性。
2.2 建立詞語語義相關度模型
    通過對知網(wǎng)結構的分析,根據(jù)如下幾個因素計算語義相關度:
    (1)詞語的相似度
    知網(wǎng)中的詞語通過一個記錄來表示,其中有一項語義表達式DEF對該詞語進行描述,語義表達式由概念和義原組成。知網(wǎng)中義原有3個類別,另有一些關系符號對概念的語義進行描述的義原,因此,可以將義原分為基本義原、其他義原、關系義原以及關系符號義原。詞語的相似度可以通過這4種義原類型求得。
    采用下列方法計算兩個詞語之間的相似度:將兩個詞語的語義表達式中的義原抽取出來,計算對應義原類型的相似度。如果某一義原類型的對應項為空,則將任何義原(或具體詞)與空值的相似度定義為一個比較小的常數(shù);如果某一義原類型包含多個義原,則將各個義原的相似度加權平均作為該類型義原的相似度[7]。
      第一基本義原即主要特征義原,兩個詞語的這一部分的相似度采用式(1)計算:
     
    關系義原即對應于所有關系義原描述式,其值是一個特征結構,記為:sim3(p1,p2)。
    關系符號義原即對應于關系符號描述式,其值是一個特征結構,記為:sim4(p1,p2)。
    于是,兩個概念(義項)語義表達式的整體相似度為[6]:
  
    (3)實例因素
    實例因素模型即義項的實例單詞的集合,實例因素對相關度的影響[3]:
  

 


    從表2可知,“中國”和“美國”在參考文獻[7]中的相似度特別高。主要是它用其距離的倒數(shù)作為其第一義原,會出現(xiàn)分類不明確的情況,本文采用的S型激活函數(shù)所劃分的區(qū)域,分類比線性劃分精確合理,所計算值也更合理。“男人”和“父親”的相似度為1,“香蕉”和“蘋果”也為1,顯然太過粗糙,這種劃分分類的方法確實存在著許多缺陷,且算出的值在客觀事實之外,本文通過修改第一義原的定義和計算,所得出的相似度分別為0.408 88和0.525 797,相比而言更合理。
    上述實驗都是同種詞性的相似度,而相似只是相關的一個方面,故而進行下面實驗,進一步量化同種詞性和不同詞性之間的相關度,通過對比參考文獻[3]的結果進行說明。結果如表3所示。
    由表3可以看出,用參考文獻[7]所述方法算出的相似度比較粗糙,例如面包和報紙的相似度比面包和蘋果的相似度還要高,這顯然不太合理,在義原樹中,僅僅考慮語義距離,確實“面包”和“報紙”的距離更近,分析發(fā)現(xiàn),這是因為沒有考慮義原關聯(lián)度原因?qū)е碌?,而本文計算出來的結果對比參考文獻[7]和參考文獻[3],結果更合理些。

    在參考文獻[3]的結果中,“面包”和“巧克力”的相關度為1,這顯然與事實不符,通常認為相關度為1是完全相關,趨于同一個事物,雖然這兩個詞語同屬于“食品”范疇,關聯(lián)度方面確實很大,可是相似度方面卻相差甚遠,因此其相關度值不可能為1。此外,對事物的看法傾向于一個動賓方式,“削”和“皮”與“削”和“刀”,后者的搭配中表明用“刀”進行“削”,但是也存在用別的東西來“削”,而“削皮”這個搭配在人的直觀認知中應該更加相關,故而“削”和“皮”的相關度應該更甚于“削”和“刀”,在本文方法中前者為0.096 533,后者為0.058 880,也符合習慣使用上對相關度的主觀判斷。另外經(jīng)分析可以看出,本文方法計算出來的數(shù)值都會偏小一些,且不會出現(xiàn)極端值問題,比較平穩(wěn),從整體上改進了參考文獻[3]中的實驗結果。
    實驗所存在的不足是結果對比不夠明顯,只是改進了偏差比較大的結果,其原因有兩方面,一是對于相關度的度量確實是一個比較主觀的做法,且目前沒有基于統(tǒng)計的相關度的判斷標準,因此很難從微觀上細小地區(qū)分方法的優(yōu)劣;其次,知網(wǎng)本身有待進一步完善和補充外,通過義原的相似度(相對稀疏的層次結構)來反映大量詞語之間的相似度(相對密集)的方法本身是否存在一定的上限還需要進一步深入研究,且許多詞語的編撰的定義項存在著一些不完整的方面。
    本實驗通過自適應的參數(shù)來進行調(diào)整,沒有固定權值,考慮到的是動詞間、名詞間以及名詞之間和動詞間,其所側重的因素不同,如名詞之間的相關度計算,相似度占的比重更大,而在動詞和名詞間,相似度比重應該較小,關聯(lián)度應占更大的比重,這樣才更加合理,因此,自動調(diào)整好各參數(shù),偏向各自比較側重的因素,以便獲得更好的效果。
    詞語的語義相關度研究在國內(nèi)并不多,本文以知網(wǎng)為知識庫,在參考文獻[3]的基礎上改進算法模型,以此提出的相關度模型所得出的結果比較符合人類主觀上對相關度的認識。
    今后的工作主要是將此詞語相關度模型應用到數(shù)據(jù)空間中數(shù)據(jù)源內(nèi)容關聯(lián)性的發(fā)現(xiàn)機制中去,提出一個基于語義模式匹配的相關性匹配策略,以本文中的詞語相關度模型為依托,從而發(fā)現(xiàn)數(shù)據(jù)空間內(nèi)部的各種數(shù)據(jù)源的聯(lián)系性。
參考文獻
[1] 李玉坤,孟小峰,張相於.數(shù)據(jù)空間技術研究[J].軟件學報,2008,19(8):2018-2031.
[2] Hua Yu,Jiang Hong,Zhu Yifeng,et al.Smart Store:a new metadata organization paradigm with metadata semantic-awareness for next-generation file systems[C].University of Nebraska-Liclon,Computer Science and Engineering,2008.
[3] 許云,樊孝忠,張鋒.基于知網(wǎng)的語義相關度計算[J].北京理工大學學報,2005,25(5):411-414.
[4] 王紅玲,呂強,徐瑞.一種基于知網(wǎng)的中文語義相關度計算模型[C].蘇州:第三屆全國信息檢索與內(nèi)容安全學術會議,2007.
[5] 李峰,李芳.中文詞語語義相似度計算—基于知網(wǎng)2000[J].中文信息學報,2007,21(3):101-107.
[6] 李素建.基于語義計算的語句相關度研究[J].計算機工程與應用,2002,38(7):75-76.
[7] 劉群,李素健.基于《知網(wǎng)》的詞匯語義相似度計算[C].臺北:第三屆漢語詞匯語義學研討會,2002.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉(zhuǎn)載。

相關內(nèi)容