《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信与网络 > 设计应用 > 基于概念网络的文本分类研究
基于概念网络的文本分类研究
李小兵1,杨一平2,刘曙光1
1.中国科学院研究生院,北京100039; 2.中国科学院自动化研究所 综合信息系统研究中心,北京1
摘要: 提出了一种基于概念网络和主题概念树的文本分类算法。该算法可以根据关联度传播模型对未知文本中的一些概念进行一定程度上的语义复合。
Abstract:
Key words :

摘   要: 提出了一種基于概念網(wǎng)絡(luò)主題概念樹文本分類算法。該算法可以根據(jù)關(guān)聯(lián)度傳播模型對未知文本中的一些概念進行一定程度上的語義復(fù)合。
關(guān)鍵詞: 概念網(wǎng)絡(luò)  主題概念樹  文本分類

  文本自動分類是指對用自然語言寫成的文本按照一定的主題進行分類。隨著信息技術(shù)的發(fā)展,特別是因特網(wǎng)的發(fā)展,使得大量的文本資料需要進行搜集和管理,從而使文本自動分類技術(shù)應(yīng)運而生。文本自動分類技術(shù)在網(wǎng)上信息定位、檔案管理、資料搜集等方面有著廣泛的用途,研究自動文本分類算法具有重要的價值。由于傳統(tǒng)的基于關(guān)鍵詞的分類方法和基于統(tǒng)計的分類方法沒有考慮文本語義和上下文方面的信息,因此有較大的局限性。近來,人們把語義信息用于文本分類,取得了較好的效果。本文試圖用一種新的工具,即概念網(wǎng)絡(luò)和主題概念樹來解決文本分類的問題,它在一定程度上考慮了上下文對文本歸類的影響。
1  概念網(wǎng)絡(luò)和主題概念樹
1.1 概念網(wǎng)絡(luò)
  概念網(wǎng)絡(luò)是中國科學院自動化所綜合信息系統(tǒng)研究中心在理論和實踐的基礎(chǔ)上對人工智能研究的一種探索,是面向多領(lǐng)域并以解決人工智能基礎(chǔ)問題為目標所開發(fā)的知識表達框架體系。它從認知心理學的角度解釋了思維活動的基礎(chǔ)結(jié)構(gòu),提出了思維活動的心理模型假說。概念網(wǎng)絡(luò)將概念作為意義的基本表達單元,依靠概念之間的各種關(guān)系形成意義主體相互作用的網(wǎng)絡(luò)。從概念網(wǎng)絡(luò)的構(gòu)造方式來說,概念網(wǎng)絡(luò)本身是一個知識表達框架體系。
  概念網(wǎng)絡(luò)理論使用屬性、關(guān)系和行為三個元素組來表達概念的內(nèi)涵。屬性是描述概念自身的固有特性,包括屬性類型、屬性名稱和屬性值,用來刻畫不同概念之間的區(qū)別;關(guān)系體現(xiàn)概念之間的聯(lián)系,在關(guān)系的作用下,由簡單概念組成復(fù)雜概念,由具體概念得到抽象概念。關(guān)系的內(nèi)容包括關(guān)系的類型、關(guān)系的主體和關(guān)系的客體;行為的內(nèi)容包括行為的名稱、行為的類型、行為產(chǎn)生的前提條件和滿足前提條件下的作用。行為的結(jié)果是改變特定語義環(huán)境下,概念網(wǎng)絡(luò)中相關(guān)概念的狀態(tài)。行為是將概念網(wǎng)絡(luò)和其他語義網(wǎng)絡(luò)區(qū)分開的標志,也是整個概念網(wǎng)絡(luò)認知的源動力。
  利用在概念網(wǎng)絡(luò)理論框架下開發(fā)出的概念網(wǎng)絡(luò)平臺——概念網(wǎng)絡(luò)管理中心(CMC),可以很方便地完成搭建領(lǐng)域知識概念網(wǎng)絡(luò)的工作。概念網(wǎng)絡(luò)平臺提供了概念的管理、概念關(guān)系的管理、概念行為的建立、概念檢索等與概念網(wǎng)絡(luò)有關(guān)的處理。目前它已經(jīng)將內(nèi)核組件化,可以方便于其他系統(tǒng)調(diào)用。在概念網(wǎng)絡(luò)平臺上,可以裝載某個專業(yè)領(lǐng)域,并定義領(lǐng)域中各個概念的屬性、行為以及概念與其他概念之間的關(guān)系。
1.2 主題概念樹
  主題概念樹是針對傳統(tǒng)的主題詞分析法或整詞匹配法提出的。它以概念網(wǎng)絡(luò)中的知識表達方法為基礎(chǔ),把與某個主題概念相關(guān)的概念組織成一棵樹,稱為主題概念樹。它把原來分散的無關(guān)聯(lián)的詞匯在概念的層次上聯(lián)系起來,從而解決了文本內(nèi)容分析的語義基礎(chǔ)。主題概念樹中每一個葉節(jié)點都由一個概念或復(fù)合概念組成,由概念組成的葉節(jié)點如“雷達”、“細菌”等,而復(fù)合概念如“無線網(wǎng)絡(luò)”、“納米材料”等。這樣,在一篇文章中,如果并不經(jīng)常出現(xiàn)“納米材料”這樣的詞匯,而是常常討論納米和材料方面的內(nèi)容,則仍然會在“納米材料”這樣的節(jié)點上取得比較高的關(guān)聯(lián)度。主題概念樹的樹杈有二種類型,它們代表了上位概念與下位概念之間的關(guān)系:一是父-子繼承關(guān)系,二是屬主-成員的隸屬關(guān)系。由于這二類關(guān)系的性質(zhì)不同,故它們的上位概念受下位概念的語義影響也不同。
  以“計算機”為例,可以建立如圖1所示的主題概念樹。

  從圖1中可以看到,每一個葉節(jié)點都是一個概念(如:計算機,軟件等)或復(fù)合概念(如應(yīng)用軟件,支撐軟件等)。主題概念樹是在概念網(wǎng)絡(luò)的基礎(chǔ)上,根據(jù)分類的主概念生成的。它的生成過程為:(1)建立某個領(lǐng)域的概念網(wǎng)絡(luò);(2)確定分類的主概念,與概念網(wǎng)絡(luò)建立連接;(3)分別取主概念的m層成員概念節(jié)點、下位概念節(jié)點、語義場概念節(jié)點(現(xiàn)在主要考慮同義和近義概念),把它們存儲到一張表中,這就是主題概念樹。層數(shù)m是個經(jīng)驗值,考慮到概念網(wǎng)絡(luò)的構(gòu)造和文本分類的實際需要,一般層數(shù)m取為4。
2  分類算法
  分類算法的核心是判斷未知文本與主題類別在內(nèi)容上的相關(guān)程度。本算法中,首先用概念網(wǎng)絡(luò)對主題概念進行概念擴展,構(gòu)建主題概念樹。對未知文本先進行子模式化,再進行分詞處理。根據(jù)關(guān)聯(lián)度計算模型求每個概念節(jié)點的基礎(chǔ)關(guān)聯(lián)度。然后,根據(jù)“詞義互相激勵原則”計算句中、句間的概念激勵,對前一步計算得到的關(guān)聯(lián)度進行修正,得到最終的關(guān)聯(lián)度,并以此為分類標準對未知文本進行識別。對未知文本關(guān)聯(lián)度的計算可分為圖2所示的幾部分。

  相關(guān)定義:(1)概念容量:文本經(jīng)過詞切分和去除停用詞后的概念總數(shù)。(2)關(guān)聯(lián)度:表示某個概念節(jié)點與未知文本之間的相關(guān)程度。(3)子模式:指未知文本中任意完整的標題或句子。(4)激勵值:表示子模式對未知文本屬于某個主題類別的貢獻。
2.1 關(guān)聯(lián)度計算
  基于概念網(wǎng)絡(luò)和主題概念樹的文本分類算法的步驟是:首先對未知文本進行子模式化和分詞,然后利用概念網(wǎng)絡(luò)進行概念定位,作初步統(tǒng)計后根據(jù)關(guān)聯(lián)度計算模型計算基礎(chǔ)關(guān)聯(lián)度、主題概念樹上復(fù)合概念的關(guān)聯(lián)度和關(guān)聯(lián)度在語義樹上的傳播。
  引入符號表示:未知文本Ti中包含Ni個概念和z個子模式,第j個子模式記為Sj。主題概念樹中所有概念和復(fù)合概念組成集合D。Rk為主題概念樹中第k個概念Ck的基礎(chǔ)關(guān)聯(lián)度,nk為Ck在Ti中出現(xiàn)的次數(shù)。用Rc表示復(fù)合概念的關(guān)聯(lián)度,Rb表示復(fù)合概念的約束概念的關(guān)聯(lián)度,Rl表示復(fù)合概念的核心概念的關(guān)聯(lián)度。Ru表示上位概念的關(guān)聯(lián)度,Rx表示下位概念的關(guān)聯(lián)度,Rxi表示第i個下位概念的關(guān)聯(lián)度。
  (1)概念節(jié)點的基礎(chǔ)關(guān)聯(lián)度計算模型。在文本中,若某主題概念及其相關(guān)概念節(jié)點出現(xiàn)的次數(shù)越多,則文本與該概念的相關(guān)度就越大;當分類概念的呈現(xiàn)次數(shù)相同時,文本中的概念容量越大,則該概念節(jié)點與文本之間的相關(guān)度就越小。它們之間存在著線性關(guān)系,即關(guān)聯(lián)度計算的基本公式:
  

  未知文本在分詞處理后,每個詞與主題概念樹中的概念節(jié)點之間可能存在三種關(guān)系:相等、相關(guān)或不相關(guān)。鑒于這三種不同的情況,在進行基礎(chǔ)關(guān)聯(lián)度計算時應(yīng)作不同的處理。本算法采用的加權(quán)策略如表1所示。

  

  以上述計算機的主題概念樹為例,對概念節(jié)點“計算機”來說,如果在未知文本中出現(xiàn)“微型機”,則給“計算機”的呈現(xiàn)次數(shù)加0.8。而如果未知文本中出現(xiàn)“軟件”這個概念,則將“計算機”的呈現(xiàn)次數(shù)加0.5。
  (2)復(fù)合概念的關(guān)聯(lián)度計算模型。復(fù)合概念的關(guān)聯(lián)度Rc可由參加復(fù)合的子概念的基礎(chǔ)關(guān)聯(lián)度計算得到。以概念約束為例:
  

  (3)主題概念樹上語義關(guān)聯(lián)度的傳播。主題概念樹上的語義關(guān)聯(lián)度的傳播模型主要考慮父-子繼承關(guān)系的語義關(guān)聯(lián)度傳播與屬主-成員的隸屬關(guān)系的語義傳播。父子繼承關(guān)系語義計算模型來自于形式邏輯關(guān)于概念的定義:概念=屬+種差,這里屬就是上位概念,種差就是下位概念的屬性。因此,繼承型語義傳播模型為:
  

其中:n是種差總數(shù),通常,在復(fù)合概念中n=1。
  例如,當以“支撐軟件”為下位概念來計算上位概念“軟件”的關(guān)聯(lián)度時,如果“支撐軟件”與未知文本之間的關(guān)聯(lián)度為0.03,則可得到“軟件”與未知文本之間的關(guān)聯(lián)度為0.015。
2.2 局部激勵修正
  上述的基礎(chǔ)關(guān)聯(lián)度計算模型中沒有考慮上下文的因素。事實上,在自然語言中,詞作為概念的載體,如果在某個詞鄰近的上下文中經(jīng)常出現(xiàn)某個類別的詞,則該詞屬于該類別的可能性也就越大。例如,在一個包含“計算機”、“軟件”、“磁盤”等詞匯的子模式中,“病毒”代表生物學上病毒含義的概率很小,而在包含“基因”、“生物”、“細菌”等詞匯的子模式中,“病毒”代表生物學上病毒含義的概率就比較大。也就是說,在小范圍內(nèi)存在著詞義的互相激勵,在這里稱之為“局部激勵”。
  下面用局部激勵的原則對基礎(chǔ)關(guān)聯(lián)度進行修正。將未知文本中的每個子模式對該文本屬于某個類別所作的貢獻,稱為子模式的激勵值,第j個子模式Sj的激勵值記為u(Sj)。
  子模式的激勵值與下面二個因素有關(guān):①子模式中與主題概念樹上的概念節(jié)點相匹配的詞的個數(shù),記為w(Sj);②每個匹配成功的概念節(jié)點在該子模式中的次數(shù),記為qk(k=1,2,……w(Sj))。
綜合上面的二個因素,子模式激勵值可表示為:

其中:z為子模式的個數(shù),?姿為可以調(diào)整的常系數(shù)。式(6)即為最后得到的未知文本與概念節(jié)點之間的關(guān)聯(lián)度。用它可進行復(fù)合概念的關(guān)聯(lián)度計算,并可通過語義關(guān)聯(lián)度傳播模型計算關(guān)聯(lián)度在主題概念樹上的傳播。最后可得到未知文本與主題概念樹各概念節(jié)點之間的關(guān)聯(lián)度。
  可以看出,在同一篇文本中,通過公式(6)的修正,每個概念節(jié)點的基礎(chǔ)關(guān)聯(lián)度得到了相同倍數(shù)的增強。所以,它并不會影響基礎(chǔ)關(guān)聯(lián)度的大小順序,與原基礎(chǔ)關(guān)聯(lián)度存在著一致性。同時,不同的文本,如果信息容量和主題概念樹上的每個概念節(jié)點的呈現(xiàn)次數(shù)相同,而同類概念在文本中出現(xiàn)的上下文位置不同時,由局部激勵原則進行的修正能使同類概念聚集度高的文本呈現(xiàn)出更高的基礎(chǔ)關(guān)聯(lián)度,即修正后的基礎(chǔ)并聯(lián)度能夠反映同類詞義互相激勵的效果。
2.3 按關(guān)聯(lián)度進行分層次識別
  按前述關(guān)聯(lián)度計算模型得到的關(guān)聯(lián)度進行排序。在計算過程中,對每一個未知文本,得到了主題概念樹上的每個概念節(jié)點與未知文本的關(guān)聯(lián)度。這樣,對于M個未知文本來說,它們關(guān)于概念節(jié)點Ck(主題概念樹上的第k個概念節(jié)點)的關(guān)聯(lián)度的大小可以進行比較。按關(guān)聯(lián)度大小將它們進行排序,就得到未知文本關(guān)于某個概念節(jié)點的關(guān)聯(lián)度排名。以此作為識別的標識,按一定的關(guān)聯(lián)度閾值進行提交。
  同時,由于在算法中下位概念的呈現(xiàn)對上位概念有貢獻,所以與下層概念節(jié)點關(guān)聯(lián)度較高的文本,與上層概念也有比較高的關(guān)聯(lián)度。如:“微型機”和“計算機軟件”方面的文本將都屬于“計算機”類別,但屬于計算機類別的文本卻不一定屬于微型機或者計算機軟件類別。對每個層次的概念節(jié)點與未知文本的關(guān)聯(lián)度大小進行排序,在同屬某個大類的情況下,可得到未知文本屬于某個小類的關(guān)聯(lián)度排名。
3  結(jié)束語
  本文提出了一種利用概念網(wǎng)絡(luò)進行語義擴展的自動文本分類算法。提出了主題概念樹的概念,對每個主題,利用主題概念樹作為分類的基礎(chǔ)。文中給出了基礎(chǔ)關(guān)聯(lián)度的計算模型以及對之進行修正的方法。初步的實驗結(jié)果表明,這種分類方法能夠有效地提高與主題概念相關(guān)度較高的文本的關(guān)聯(lián)度系數(shù)。同時,對于僅有少量關(guān)鍵詞出現(xiàn),卻與主概念相關(guān)度不高的文本,能夠降低其關(guān)聯(lián)度系數(shù)。
參考文獻
1   Maria N.Theme-based Retrieval of Web News.http://xldb.fc.ul.pt/data/Publications_attach/po25.pdf,2000
2   Rosso P.Text Categorization and Information Retrieval Using WordNet Senses.http://www.fi.muni.cz/gwc2004/proc/110.pdf,2003
3   李莼.基于語義相關(guān)和概念相關(guān)的自動分類方法研究.計算機工程與應(yīng)用,2003;(12)
4   高一波.一種基于概念的知識表達體系.計算機信息學報,2004;21(9)
5   解沖鋒,李星.基于序列的文本分類算法.軟件學報,2002;13(4)
6   龐劍鋒,卜東波,白碩.基于向量空間模型的文本自動分類系統(tǒng)的研究與實現(xiàn).計算機應(yīng)用研究,2001;18(9)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容