123,123

一种基于知识库的语义检索系统模型

来源:微型机与应用2010年第20期

马中杰，郑诚，苏喻

（安徽大学计算机科学与技术学院，安徽合肥230039）

摘要： 讲述了目前检索系统存在的不足以及产生这些不足的原因，介绍了本体的概念及其在语义检索领域中的作用。在此基础上提出了一种基于知识库的语义检索系统模型，并对该模型的实现原理和关键技术进行了详细的阐述。实验结果表明，相对于传统的方法，该方法能大幅提高用户检索的查全率和查准率。

關(guān)鍵詞： 本体知识库语义检索

Abstract：

Key words :

摘要： 講述了目前檢索系統(tǒng)存在的不足以及產(chǎn)生這些不足的原因，介紹了本體的概念及其在語義檢索領(lǐng)域中的作用。在此基礎(chǔ)上提出了一種基于知識庫的語義檢索系統(tǒng)模型，并對該模型的實現(xiàn)原理和關(guān)鍵技術(shù)進(jìn)行了詳細(xì)的闡述。實驗結(jié)果表明，相對于傳統(tǒng)的方法，該方法能大幅提高用戶檢索的查全率和查準(zhǔn)率。
關(guān)鍵詞： 本體；知識庫；語義檢索

    目前檢索系統(tǒng)主要是基于關(guān)鍵字的全文匹配或者是按主題進(jìn)行分類。但是，前者僅僅是進(jìn)行字符串的匹配，不能對信息的語義進(jìn)行揭示；而主題分類對信息資源揭示的效率較低、深度有限。由于以上缺陷，人們致力于尋求一種新的檢索模式。本體作為一種能夠在語義和知識層次上描述信息系統(tǒng)的概念模型建模工具，具有良好的概念層次結(jié)構(gòu)和對邏輯推理的支持，于是人們便開始了基于本體的語義檢索的嘗試，試圖利用本體的語義關(guān)系來提高檢索系統(tǒng)的語義智能，從而使信息檢索從目前基于關(guān)鍵字的層面提高到基于知識的層面。
   根據(jù)處理網(wǎng)絡(luò)文檔方式的不同，基于本體的語義檢索分為基于知識庫的語義檢索和基于語義網(wǎng)文檔的語義檢索。前一種指盡可能維持現(xiàn)有文檔的內(nèi)容形式，利用知識表示的強(qiáng)大功能來建立龐大的知識庫。而后一種基于語義網(wǎng)，語義網(wǎng)文檔是包含語義信息的文檔，能被軟件代理直接訪問，這種檢索方式代表著互聯(lián)網(wǎng)的發(fā)展方向。但是，要想以可支付的代價將現(xiàn)有網(wǎng)絡(luò)文檔轉(zhuǎn)換成語義網(wǎng)文檔是不太現(xiàn)實的，所以本文主要研究基于知識庫的語義檢索。
1 本體論概述
1.1 本體的起源和定義
   本體原本是哲學(xué)領(lǐng)域的一個概念，后來該概念被信息系統(tǒng)、知識系統(tǒng)等所借用，并迅速成為人們的研究熱點。有關(guān)本體概念，目前比較公認(rèn)的定義為“本體是共享概念模型的明確的形式化規(guī)范說明”。該定義包含了4層含義：“概念模型”指通過抽象出客觀世界中一些現(xiàn)象的相關(guān)概念而得到的模型；“明確”指所使用的概念及其約束都有明確的定義；“形式化”指能被計算機(jī)所處理；“共享”指本體中體現(xiàn)的是共同認(rèn)可的知識。
1.2 本體的描述語言
   為了讓計算機(jī)能夠?qū)π畔⒌恼Z義進(jìn)行處理，需要一定的編碼語言（例如RDF等）來表達(dá)本體的體系結(jié)構(gòu)。資源描述框架RDF(Resource Description Framework)定義了一個基本的數(shù)據(jù)模型，該模型包括了三種對象類型：資源(resources)、屬性(properties)、聲明(statements)。資源可以是網(wǎng)頁、多媒體等，通常用URI來命名；屬性用來描述資源的一個特定方面、特征等；一個RDF的聲明就是一個資源和一個屬性加上這個屬性的取值所形成的集合。一個聲明由以下三部分組成：主語(subject)、謂語(predicate)、賓語(object)。
1.3 本體在語義檢索中的作用
   本體在語義檢索中的作用可概括為以下幾點：
   (1)本體為語義標(biāo)注和擴(kuò)展提供了標(biāo)準(zhǔn)的詞匯庫；
   (2)檢索中所進(jìn)行的推理工作必須在本體中進(jìn)行；
   (3)本體可以明確領(lǐng)域假設(shè)，使領(lǐng)域公理得到明確描述而達(dá)成共識。
2 系統(tǒng)的基本框架結(jié)構(gòu)
   本文提出的模型其基本設(shè)計思想如下：首先在領(lǐng)域?qū)＜业膮⑴c下建立相應(yīng)領(lǐng)域的本體，然后把收集的數(shù)據(jù)信息參照已建立的本體，按規(guī)定的格式存儲在知識庫中，當(dāng)用戶檢索時，按照本體把查詢請求轉(zhuǎn)換成規(guī)定的格式，并從知識庫中匹配出符合條件的文檔集，排序后返回給用戶。該模型的主要組成部分有用戶界面、領(lǐng)域本體、文檔集、知識庫等。其結(jié)構(gòu)關(guān)系如圖1所示。其實整個系統(tǒng)可劃分成虛線所示的三部分：基于本體的信息提取和語義標(biāo)注、基于知識庫的查詢請求處理和檢索模塊以及對檢索結(jié)果進(jìn)行排序。

2.1 知識庫
   在現(xiàn)有網(wǎng)絡(luò)下實現(xiàn)真正意義上的語義檢索，建立知識庫是必需的。知識庫是搜索代理進(jìn)行推理和知識積累的關(guān)鍵。通常某個領(lǐng)域的本體提供了該領(lǐng)域相應(yīng)的術(shù)語和概念，而知識庫就是利用這些術(shù)語和概念來表達(dá)現(xiàn)實或者虛擬世界的正確知識。例如一個醫(yī)學(xué)本體可能包含有“高血壓”、“糖尿病”等術(shù)語的定義，但它并不包含某一個具體病人的診斷結(jié)果，而這正好是知識庫所要表達(dá)的內(nèi)容。例如王小二患有高血壓，李四患有糖尿病等，在這個例子中高血壓、糖尿病就是本體的概念，而各個病人的實例（王小二、李四）及其病癥的描述就是知識庫要表達(dá)的內(nèi)容。
2.2 基于本體的信息提取和語義標(biāo)注
   在信息檢索中為了提高檢索效率，必須對網(wǎng)絡(luò)上所存在的資源進(jìn)行預(yù)處理。信息提取就是首先對文檔集中的每篇文檔進(jìn)行詞匯分析，利用禁用詞表去掉文獻(xiàn)中的虛詞以及對檢索作用不大的詞、數(shù)字、字母、標(biāo)點符號等，僅保留具有實際意義的名詞、動詞等，然后確定索引元素，并在本體中獲得能夠正確表達(dá)文檔內(nèi)容的概念性詞或詞組。
   語義檢索即在一個知識庫中做邏輯判斷并推理，檢索的結(jié)果往往都是知識庫中的元組，但用戶需要的是提供相關(guān)文檔，這就需要通過明確、無隱蔽的標(biāo)注方式，把知識庫中的概念、實例或者關(guān)系與那些描述它們的文檔關(guān)聯(lián)起來，這就是語義標(biāo)注的功能。通常使用文檔—實例關(guān)聯(lián)表來存儲文檔和實例間的映射關(guān)系,這種關(guān)聯(lián)表也稱索引庫，有了索引庫之后就可以通過查詢接口返回的元組實例獲得相應(yīng)的文檔鏈接。該部分的流程圖如圖2所示。

    為了量化實例（instance）與文檔之間相關(guān)性的大小，有時還需要確定標(biāo)注的權(quán)重?，F(xiàn)在通用的算法是TF-IDF算法，其計算公式為：

其中wij表示實例Ii在文檔Dj中的權(quán)重。Ｄ是全部文檔數(shù)，Dw則是包含特征詞的文檔數(shù)。freqij表示實例Ii對應(yīng)的標(biāo)簽在文檔Dj中出現(xiàn)的頻率，max freqij表示在文檔Dj中出現(xiàn)次數(shù)最多的實例的頻率。
2.3 基于知識庫的查詢請求處理和信息檢索模塊
   當(dāng)用戶輸入檢索詞后，查詢請求處理模塊對查詢語句進(jìn)行分析，從中提取出能正確表達(dá)查詢語義的概念性詞或詞組。然后將其帶到本體中查找相應(yīng)的概念，并對概念進(jìn)行語義化處理，得到一個檢索式集合，再由檢索代理從知識庫中匹配出符合條件的元組集[1]。該部分主要包括三方面工作：(1)基于本體的語義查詢擴(kuò)展；(2)查詢語句的規(guī)范與重構(gòu)；(3)信息檢索。
2.3.1 基于本體的語義查詢擴(kuò)展
   據(jù)統(tǒng)計，在信息檢索中，人們使用相同的詞來表達(dá)同一概念的概率不到20%，這就要求必須在用戶原查詢詞的基礎(chǔ)上添加與之相關(guān)的詞，以解決一義多詞的問題。基于本體的語義查詢擴(kuò)展就是借助本體的語義關(guān)系、層次結(jié)構(gòu)和推理機(jī)制對用戶的查詢實現(xiàn)語義上的擴(kuò)展。早在2003年，MAKI等人就提出了基于本體結(jié)構(gòu)進(jìn)行查詢擴(kuò)展。2004年張敏等又提出了基于語義關(guān)系查詢擴(kuò)展的文檔重構(gòu)方法[2]。
   本文綜合了基于路徑和基于注釋兩種方法的優(yōu)點，通過分析影響語義的因素，實現(xiàn)了一種基于語義相似度的查詢擴(kuò)展。其模型如圖3所示。

語義相似度的值通常與概念間的距離、概念間的鏈接類型等有關(guān)。當(dāng)然不同類型的連接關(guān)系,如上位、下位、同義等，對概念語義關(guān)聯(lián)程度的貢獻(xiàn)也不同[3-4]。但在實際應(yīng)用中如果考慮大量的關(guān)系類型將會影響系統(tǒng)的性能，因此僅選取貢獻(xiàn)較大的幾種類型。本模型采用的關(guān)系類型及其權(quán)重分配方案如表1所示。

2.3.2 查詢語句的規(guī)范與重構(gòu)
根據(jù)圖3，擴(kuò)展后的用戶查詢?nèi)孕柽M(jìn)一步地規(guī)范，以判斷擴(kuò)展后的查詢詞屬于三元組哪一部分并將其分別儲存于相應(yīng)的集合中。最后得到三個集合，分別為本體概念集S-set、個體實例集I-set和屬性集P-set。這三個集合分別對應(yīng)于三元組的Subject、Object和Predicate，隨后分析概念之間以及概念與個體之間的關(guān)系，將所有可能產(chǎn)生的概念關(guān)聯(lián)都構(gòu)建成三元組模式的查詢語句提交檢索模塊。

2.3.3 信息檢索
經(jīng)過以上處理，信息檢索模塊接受的是具有一定檢索規(guī)范的結(jié)構(gòu)化查詢。為了提高查全率，本模塊首先根據(jù)用戶提供的檢索要求，基于知識庫進(jìn)行推理，這種推理是基于類層次和規(guī)則的，系統(tǒng)設(shè)計者可以根據(jù)具體需要創(chuàng)建適合的推理規(guī)則。之后僅需與知識庫中的信息進(jìn)行匹配，將滿足條件的元組選出。例如，有一個服裝領(lǐng)域的本體，對概念“服裝”存在一個標(biāo)簽名為“價格”的屬性?？梢詣?chuàng)建這樣一條規(guī)則，如果價格大于5 000元，就認(rèn)為該衣服為高檔服裝。所以當(dāng)用戶查詢高檔服裝時，就可以根據(jù)這條規(guī)則，將知識庫中滿足條件的實例返回。如果是基于關(guān)鍵字的檢索，就僅僅返回包含“高檔服裝”的網(wǎng)頁，而遺漏掉那些不包含“高檔服裝”但滿足用戶需求的資源。
2.4 排序模塊
通過索引庫從文檔集中把文檔檢索出來之后，得到的是一系列無序文檔，在遞交給用戶之前需對文檔進(jìn)行排序。這就需要計算查詢與文檔之間的相關(guān)度。在語義標(biāo)注時曾講過，為了量化實例與文檔之間的關(guān)聯(lián)程度，通過TF-IDF算法來確定實例的標(biāo)注權(quán)重，這樣文檔Dj就能被簡化為實例的集合。令wij為實例Ii在文檔中的權(quán)重，則dj=(wi1…wim)。而查詢也可在同一空間里表示成查詢向量的形式(即q=(q1…qm))，利用余弦定理就可以計算得到文檔與查詢的相關(guān)性：sim(Di，Q)=di×q/(|di|×|q|)。

檢索模塊將結(jié)構(gòu)化檢索條件與知識庫中RDF三元組進(jìn)行匹配，并返回匹配的所有元組，通過查找實例-文檔的索引庫，返回?zé)o序文檔集。排序模塊對文檔排序后返回。其實驗性能如圖4所示。

    性能分析：
   (1)查準(zhǔn)率。由于查詢擴(kuò)展和語義標(biāo)注等都是基于本體進(jìn)行的，這樣就明確了術(shù)語的選擇范圍，限制了對術(shù)語可能的解釋，可以很好地解決一詞多義的現(xiàn)象。
    (2)查全率。在該系統(tǒng)模型中，由于增加了查詢語義擴(kuò)展，系統(tǒng)可以根據(jù)用戶提交的檢索詞推理出與原查詢相近或相關(guān)的詞加入查詢系統(tǒng)，以提高檢索質(zhì)量。當(dāng)然，必須選擇合適的閾值和調(diào)節(jié)參數(shù)來控制擴(kuò)展的階數(shù)，否則在提高查全率的同時查準(zhǔn)率將會受到影響。
   通過實驗可以看出，相對于傳統(tǒng)的檢索模型，該模型在查準(zhǔn)率方面有較明顯改善，查全率也幾乎相當(dāng)。但同時也應(yīng)該注意，系統(tǒng)的檢索性能直接取決于知識庫中信息的質(zhì)量及數(shù)量。當(dāng)用戶要查詢的內(nèi)容在知識庫中比較豐富、完善的時候，能得到較好的檢索效果。反之，該模型的檢索性能便比不上基于關(guān)鍵字的全文檢索性能，為了克服這種缺點，有時需要把基于關(guān)鍵字的檢索整合進(jìn)來，作為該模型的補(bǔ)充。
參考文獻(xiàn)
[1] 張敏，宋睿華，馬少平.基于語義關(guān)系查詢擴(kuò)展的文檔重構(gòu)方法[J].計算機(jī)學(xué)報，2004，27(10)：1395-1401.
[2] 郭承霞，王愛繼，陳慶海.基于領(lǐng)域本體的智能信息檢索模型研究[J].計算機(jī)科學(xué)，2009，36（4A）：101-102.
[3] 聶卉.基于本體的查詢擴(kuò)展與規(guī)范[J].知識組織與知識管理，2007，3（148）：35-38.
[4] 熊忠陽，李春玲，張玉芳.一種基于領(lǐng)域本體的混合信息檢索模型[J].計算機(jī)工程，2008，34（21）：68-70.
[5] 王愛麗，朱欣娟.基于本體的服裝領(lǐng)域語義Web檢索方法[J].西安工程科技學(xué)院學(xué)報，2007，21(4)：489-493.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容