摘 要: 提出了詞語相關(guān)度模型,作為在數(shù)據(jù)空間中發(fā)現(xiàn)數(shù)據(jù)源內(nèi)容關(guān)聯(lián)的一個基礎(chǔ)。本模型基于HowNet,可以計算同種詞性以及不同詞性之間的相關(guān)度,融合了詞語的相似度、關(guān)聯(lián)度和實例因素,綜合獲得詞語的內(nèi)在相關(guān)性。通過對比實驗發(fā)現(xiàn),本模型所計算的詞語相關(guān)度值更加符合人們主觀上對詞語相關(guān)性的認(rèn)識。
關(guān)鍵詞: 數(shù)據(jù)空間;HowNet;詞語相關(guān)度
語義相關(guān)度的研究是自然語義處理NLP(Natural Language Processing)的基礎(chǔ),廣泛用于語義消歧、信息檢索、文本分類、文本聚類等領(lǐng)域。本文將其作為數(shù)據(jù)空間[1]研究課題的基礎(chǔ)性內(nèi)容來研究,旨在從內(nèi)容上發(fā)現(xiàn)數(shù)據(jù)空間中的數(shù)據(jù)源之間的關(guān)聯(lián)。
關(guān)于語義相關(guān)度的研究在國外較多,目前的方法一般分為兩類[2]:一種是統(tǒng)計方法,另一種是基于語義詞典方法。Jiang和Conrath利用Wordnet圖的上位關(guān)系,通過合并概念c1和c2的信息內(nèi)容以及最小的共同類屬者,綜合基于邊以及結(jié)點的技術(shù),再用語料庫統(tǒng)計作為輔助因素進行矯正[2];Banerjee和Pedersen在Wordnet的英文語境下,將單詞的解釋中重疊的單詞數(shù)量的平方,及含有上下文等關(guān)系類型的詞語的單詞重疊的數(shù)量的平方之和,共同作為最后詞語相關(guān)度的值[2]。
國內(nèi)在語義相關(guān)方面的研究還較欠缺,且大多數(shù)選擇英文環(huán)境,主要基于HowNet、詞林、維基百科等知識庫[3-5]。參考文獻[3]根據(jù)知網(wǎng)中的特征文件下位義原和上位義原擁有的屬性以及縱向語義聯(lián)系和實例信息計算詞語的相關(guān)度。參考文獻[4]通過挖掘直接或間接的關(guān)系而提出的新的語義相關(guān)度計算模型,適用于類似知網(wǎng)的知識體系??偨Y(jié)基于語義詞典度量語義相關(guān)度所考慮的因素,即最短路徑長度、局部網(wǎng)絡(luò)密度、結(jié)點在層次中的深度、連接的類型、概念結(jié)點的信息含量以及概念的釋義,將上述6個因素歸為三大類:結(jié)構(gòu)特點、信息量和概念釋義。
本文在綜合了參考文獻[3]中所提到的基本義原相似度和關(guān)聯(lián)度以及其他相關(guān)研究的基礎(chǔ)上定義了一個詞語相關(guān)度算法模型,實現(xiàn)計算同種詞性、不同詞性詞語之間的相關(guān)度。
1 知網(wǎng)
中國人民大學(xué)的董振東教授等人編寫的《知網(wǎng)》以漢語和英語的詞語所代表的概念為描述對象,包含豐富詞匯,反映概念的共性和個性,是以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫。
知網(wǎng)中的語義通過義原描述,共有1 618個義原被分成 10大類,每一類都是由一個樹結(jié)構(gòu)來存儲,而不同類之間的義原構(gòu)成一個網(wǎng)狀結(jié)構(gòu),它們通過解釋義原關(guān)聯(lián)起來。知網(wǎng)中的詞語關(guān)系類型[6]如表1所示。
2 語義相關(guān)度模型
2.1 語義相關(guān)概念
定義1 語義相似度是指兩個詞在不同的上下文中可以互相替換使用而不改變文本的句法語義結(jié)構(gòu)的程度[7]。
定義2 詞語關(guān)聯(lián)度是指詞語在概念解釋上所存在的語義關(guān)系的程度。
定義3 詞語相關(guān)度是指詞語間含有表1中的關(guān)系類型或存在詞語隱含傳遞等相互關(guān)聯(lián)的特性,即兩個詞語相互關(guān)聯(lián)的程度從側(cè)面反映了兩個詞語在同一個語境中共現(xiàn)的可能性,其影響因素有詞語的相似性以及關(guān)聯(lián)性等。
鑒于目前國內(nèi)還沒有對相關(guān)度判斷的標(biāo)準(zhǔn)和類似的專門人工判斷的詞集,本實驗中對相關(guān)度的判斷主要從兩個方面來界定:一是依據(jù)上文的定義;二是通過對比參考文獻[3]中相關(guān)度的實驗結(jié)果,改進其中一些明顯不合理的實驗結(jié)果來確認(rèn)本方法的改進性。
2.2 建立詞語語義相關(guān)度模型
通過對知網(wǎng)結(jié)構(gòu)的分析,根據(jù)如下幾個因素計算語義相關(guān)度:
(1)詞語的相似度
知網(wǎng)中的詞語通過一個記錄來表示,其中有一項語義表達式DEF對該詞語進行描述,語義表達式由概念和義原組成。知網(wǎng)中義原有3個類別,另有一些關(guān)系符號對概念的語義進行描述的義原,因此,可以將義原分為基本義原、其他義原、關(guān)系義原以及關(guān)系符號義原。詞語的相似度可以通過這4種義原類型求得。
采用下列方法計算兩個詞語之間的相似度:將兩個詞語的語義表達式中的義原抽取出來,計算對應(yīng)義原類型的相似度。如果某一義原類型的對應(yīng)項為空,則將任何義原(或具體詞)與空值的相似度定義為一個比較小的常數(shù);如果某一義原類型包含多個義原,則將各個義原的相似度加權(quán)平均作為該類型義原的相似度[7]。
第一基本義原即主要特征義原,兩個詞語的這一部分的相似度采用式(1)計算:
關(guān)系義原即對應(yīng)于所有關(guān)系義原描述式,其值是一個特征結(jié)構(gòu),記為:sim3(p1,p2)。
關(guān)系符號義原即對應(yīng)于關(guān)系符號描述式,其值是一個特征結(jié)構(gòu),記為:sim4(p1,p2)。
于是,兩個概念(義項)語義表達式的整體相似度為[6]:
(3)實例因素
實例因素模型即義項的實例單詞的集合,實例因素對相關(guān)度的影響[3]:
從表2可知,“中國”和“美國”在參考文獻[7]中的相似度特別高。主要是它用其距離的倒數(shù)作為其第一義原,會出現(xiàn)分類不明確的情況,本文采用的S型激活函數(shù)所劃分的區(qū)域,分類比線性劃分精確合理,所計算值也更合理。“男人”和“父親”的相似度為1,“香蕉”和“蘋果”也為1,顯然太過粗糙,這種劃分分類的方法確實存在著許多缺陷,且算出的值在客觀事實之外,本文通過修改第一義原的定義和計算,所得出的相似度分別為0.408 88和0.525 797,相比而言更合理。
上述實驗都是同種詞性的相似度,而相似只是相關(guān)的一個方面,故而進行下面實驗,進一步量化同種詞性和不同詞性之間的相關(guān)度,通過對比參考文獻[3]的結(jié)果進行說明。結(jié)果如表3所示。
由表3可以看出,用參考文獻[7]所述方法算出的相似度比較粗糙,例如面包和報紙的相似度比面包和蘋果的相似度還要高,這顯然不太合理,在義原樹中,僅僅考慮語義距離,確實“面包”和“報紙”的距離更近,分析發(fā)現(xiàn),這是因為沒有考慮義原關(guān)聯(lián)度原因?qū)е碌?,而本文計算出來的結(jié)果對比參考文獻[7]和參考文獻[3],結(jié)果更合理些。
在參考文獻[3]的結(jié)果中,“面包”和“巧克力”的相關(guān)度為1,這顯然與事實不符,通常認(rèn)為相關(guān)度為1是完全相關(guān),趨于同一個事物,雖然這兩個詞語同屬于“食品”范疇,關(guān)聯(lián)度方面確實很大,可是相似度方面卻相差甚遠,因此其相關(guān)度值不可能為1。此外,對事物的看法傾向于一個動賓方式,“削”和“皮”與“削”和“刀”,后者的搭配中表明用“刀”進行“削”,但是也存在用別的東西來“削”,而“削皮”這個搭配在人的直觀認(rèn)知中應(yīng)該更加相關(guān),故而“削”和“皮”的相關(guān)度應(yīng)該更甚于“削”和“刀”,在本文方法中前者為0.096 533,后者為0.058 880,也符合習(xí)慣使用上對相關(guān)度的主觀判斷。另外經(jīng)分析可以看出,本文方法計算出來的數(shù)值都會偏小一些,且不會出現(xiàn)極端值問題,比較平穩(wěn),從整體上改進了參考文獻[3]中的實驗結(jié)果。
實驗所存在的不足是結(jié)果對比不夠明顯,只是改進了偏差比較大的結(jié)果,其原因有兩方面,一是對于相關(guān)度的度量確實是一個比較主觀的做法,且目前沒有基于統(tǒng)計的相關(guān)度的判斷標(biāo)準(zhǔn),因此很難從微觀上細小地區(qū)分方法的優(yōu)劣;其次,知網(wǎng)本身有待進一步完善和補充外,通過義原的相似度(相對稀疏的層次結(jié)構(gòu))來反映大量詞語之間的相似度(相對密集)的方法本身是否存在一定的上限還需要進一步深入研究,且許多詞語的編撰的定義項存在著一些不完整的方面。
本實驗通過自適應(yīng)的參數(shù)來進行調(diào)整,沒有固定權(quán)值,考慮到的是動詞間、名詞間以及名詞之間和動詞間,其所側(cè)重的因素不同,如名詞之間的相關(guān)度計算,相似度占的比重更大,而在動詞和名詞間,相似度比重應(yīng)該較小,關(guān)聯(lián)度應(yīng)占更大的比重,這樣才更加合理,因此,自動調(diào)整好各參數(shù),偏向各自比較側(cè)重的因素,以便獲得更好的效果。
詞語的語義相關(guān)度研究在國內(nèi)并不多,本文以知網(wǎng)為知識庫,在參考文獻[3]的基礎(chǔ)上改進算法模型,以此提出的相關(guān)度模型所得出的結(jié)果比較符合人類主觀上對相關(guān)度的認(rèn)識。
今后的工作主要是將此詞語相關(guān)度模型應(yīng)用到數(shù)據(jù)空間中數(shù)據(jù)源內(nèi)容關(guān)聯(lián)性的發(fā)現(xiàn)機制中去,提出一個基于語義模式匹配的相關(guān)性匹配策略,以本文中的詞語相關(guān)度模型為依托,從而發(fā)現(xiàn)數(shù)據(jù)空間內(nèi)部的各種數(shù)據(jù)源的聯(lián)系性。
參考文獻
[1] 李玉坤,孟小峰,張相於.數(shù)據(jù)空間技術(shù)研究[J].軟件學(xué)報,2008,19(8):2018-2031.
[2] Hua Yu,Jiang Hong,Zhu Yifeng,et al.Smart Store:a new metadata organization paradigm with metadata semantic-awareness for next-generation file systems[C].University of Nebraska-Liclon,Computer Science and Engineering,2008.
[3] 許云,樊孝忠,張鋒.基于知網(wǎng)的語義相關(guān)度計算[J].北京理工大學(xué)學(xué)報,2005,25(5):411-414.
[4] 王紅玲,呂強,徐瑞.一種基于知網(wǎng)的中文語義相關(guān)度計算模型[C].蘇州:第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議,2007.
[5] 李峰,李芳.中文詞語語義相似度計算—基于知網(wǎng)2000[J].中文信息學(xué)報,2007,21(3):101-107.
[6] 李素建.基于語義計算的語句相關(guān)度研究[J].計算機工程與應(yīng)用,2002,38(7):75-76.
[7] 劉群,李素健.基于《知網(wǎng)》的詞匯語義相似度計算[C].臺北:第三屆漢語詞匯語義學(xué)研討會,2002.