《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于認(rèn)知廣度和深度的個(gè)性化信息檢索模型
基于認(rèn)知廣度和深度的個(gè)性化信息檢索模型
來(lái)源:微型機(jī)與應(yīng)用2011年第13期
鄒 海1,2,郇秀花1,2
(1.教育部智能計(jì)算與信號(hào)處理重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230039;2.安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)
摘要: 受心理學(xué)激活-擴(kuò)散模型的啟發(fā),提出了在領(lǐng)域本體基礎(chǔ)上的用戶(hù)認(rèn)知結(jié)構(gòu)模型。該模型依據(jù)用戶(hù)提供的認(rèn)知中心,一方面,根據(jù)領(lǐng)域本體中概念之間的語(yǔ)義相關(guān)性推導(dǎo)出用戶(hù)的認(rèn)知范圍;另一方面,根據(jù)概念之間的語(yǔ)義相關(guān)度刻畫(huà)出用戶(hù)的認(rèn)知深度。從認(rèn)知范圍和認(rèn)知深度兩方面,描述用戶(hù)對(duì)某領(lǐng)域知識(shí)的認(rèn)知結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,該模型與通用本體模型相比,具有較高的查準(zhǔn)率。
Abstract:
Key words :

摘  要: 受心理學(xué)激活-擴(kuò)散模型的啟發(fā),提出了在領(lǐng)域本體基礎(chǔ)上的用戶(hù)認(rèn)知結(jié)構(gòu)模型。該模型依據(jù)用戶(hù)提供的認(rèn)知中心,一方面,根據(jù)領(lǐng)域本體中概念之間的語(yǔ)義相關(guān)性推導(dǎo)出用戶(hù)的認(rèn)知范圍;另一方面,根據(jù)概念之間的語(yǔ)義相關(guān)度刻畫(huà)出用戶(hù)的認(rèn)知深度。從認(rèn)知范圍和認(rèn)知深度兩方面,描述用戶(hù)對(duì)某領(lǐng)域知識(shí)的認(rèn)知結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,該模型與通用本體模型相比,具有較高的查準(zhǔn)率。
關(guān)鍵詞: 認(rèn)知結(jié)構(gòu);激活擴(kuò)散模型認(rèn)知廣度;認(rèn)知深度;個(gè)性化檢索

 隨著信息的急劇膨脹,人們希望借助信息檢索工具如搜索引擎來(lái)獲取自己需要的信息顯得尤為迫切。然而,傳統(tǒng)的基于關(guān)鍵詞匹配的信息檢索技術(shù)往往只是得到“千人一面”的檢索結(jié)果,難以理解用戶(hù)檢索目的和區(qū)別用戶(hù)的需求。造成這種情況的主要原因有兩方面:一是當(dāng)前的互聯(lián)網(wǎng)不能恰當(dāng)?shù)奶幚碚Z(yǔ)義;二是缺乏對(duì)用戶(hù)的理解。針對(duì)第一個(gè)原因,Tim Berners-Lee提出了語(yǔ)義Web(Semantic Web)的概念[1]。其引入了以本體(Ontology)來(lái)表示概念和語(yǔ)義關(guān)聯(lián)信息這一思想,來(lái)實(shí)現(xiàn)不同系統(tǒng)之間的信息共享,提高網(wǎng)絡(luò)服務(wù)的智能化與自動(dòng)化。語(yǔ)義Web通過(guò)把當(dāng)前Web上無(wú)序的信息變?yōu)橛行虻闹R(shí),為解決數(shù)據(jù)管理有序性與Web上信息無(wú)序性相矛盾,搜索引擎的查全查準(zhǔn)要求與數(shù)據(jù)缺乏語(yǔ)義相矛盾等問(wèn)題指明了方向[2]。針對(duì)第二個(gè)原因,許多學(xué)者引入了用戶(hù)上下文信息,如用戶(hù)工作內(nèi)容、專(zhuān)業(yè)背景、興趣、愛(ài)好、生活習(xí)慣、經(jīng)驗(yàn)、點(diǎn)擊反饋、用戶(hù)認(rèn)知(Cognition)、理解水平等因素都屬于用戶(hù)上下文信息。這些上下文信息都是理解用戶(hù)個(gè)性化需求的關(guān)鍵信息。
 隨著語(yǔ)義Web的研究,人們紛紛在本體的基礎(chǔ)上對(duì)上下文信息進(jìn)行分析和描述[3],這些研究具有以下特點(diǎn):
 (1)研究對(duì)象僅僅只是用戶(hù)的興趣,缺乏從多角度對(duì)用戶(hù)個(gè)性化需求,如理解水平、認(rèn)知結(jié)構(gòu)等的理解和挖掘。
 (2)分析只是集中于利用上下語(yǔ)義關(guān)系,缺乏精確的分析和表示。這些研究工作大都基于WordNet、dmoz ODP(Open Directory Project)之類(lèi)的通用本體,只在概念間的父子關(guān)系基礎(chǔ)上進(jìn)行分析,而不能從細(xì)粒度上對(duì)用戶(hù)的興趣進(jìn)行精確分析和表示。
 (3)研究方法多集中在定性的分析,缺乏定量分析和描述。這些研究大部分從父子語(yǔ)義關(guān)系入手來(lái)描述用戶(hù)興趣范圍,缺乏對(duì)用戶(hù)興趣深度的描述和表示。如文獻(xiàn)[4]的正例/反例擴(kuò)展向量和文獻(xiàn)[5]中的個(gè)性化層次樹(shù),只要描述的關(guān)鍵詞相同,那么用戶(hù)的個(gè)性化模型也必然相同。
心理學(xué)上認(rèn)為,人們的興趣、認(rèn)識(shí)和情感密切聯(lián)系。認(rèn)識(shí)越深刻,情感就越豐富,興趣也就越濃厚。用戶(hù)的愛(ài)好、理解水平、表達(dá)等都和用戶(hù)認(rèn)知結(jié)構(gòu)緊密相關(guān)[6]。因此,從用戶(hù)的認(rèn)知結(jié)構(gòu)入手可以更好地理解用戶(hù)的個(gè)性化需求。尤其在專(zhuān)業(yè)領(lǐng)域范圍內(nèi),用戶(hù)的檢索目標(biāo)往往和自身在該領(lǐng)域的認(rèn)知結(jié)構(gòu)相適應(yīng)。
 受認(rèn)知心理學(xué)上激活-擴(kuò)散模型(spreading-activation model)的啟發(fā),本文提出了一種基于領(lǐng)域本體來(lái)描述用戶(hù)認(rèn)知結(jié)構(gòu)的模型ObSAM(Ontology based Spreading-Activation Model)。激活-擴(kuò)散模型是認(rèn)知心理學(xué)領(lǐng)域里一種表征個(gè)體知識(shí)的模型,它認(rèn)為個(gè)體內(nèi)部知識(shí)不是按照層次組織的,而是根據(jù)概念間的語(yǔ)義關(guān)系或者語(yǔ)義之間的距離來(lái)組織和表示的。當(dāng)概念在用戶(hù)大腦里出現(xiàn)時(shí),用戶(hù)語(yǔ)義記憶中相對(duì)應(yīng)的概念節(jié)點(diǎn)會(huì)被激活,被激活了的概念節(jié)點(diǎn)就開(kāi)始擴(kuò)散到其他的概念上,尤其會(huì)擴(kuò)散到那些在語(yǔ)義上有緊密聯(lián)系的概念。根據(jù)這個(gè)模型,本文提出了用戶(hù)認(rèn)知結(jié)構(gòu)模型,依據(jù)用戶(hù)給出的認(rèn)知中心概念,一方面,根據(jù)領(lǐng)域本體中概念之間的語(yǔ)義相關(guān)性推導(dǎo)出用戶(hù)認(rèn)知范圍;另一方面,通過(guò)概念之間的語(yǔ)義相關(guān)度刻畫(huà)出用戶(hù)認(rèn)知深度,從這兩個(gè)方面描述用戶(hù)對(duì)某領(lǐng)域知識(shí)的認(rèn)知結(jié)構(gòu)。
1 激活-擴(kuò)散模型
 1968年Quillian提出了最早的語(yǔ)義記憶模型。在這個(gè)模型中,他用type來(lái)描述概念,用token描述詞語(yǔ),用帶有標(biāo)簽說(shuō)明的激活擴(kuò)散行為來(lái)描述兩個(gè)節(jié)點(diǎn)之間關(guān)聯(lián)時(shí)涉及到的中間節(jié)點(diǎn)。1975年Collins和Loftus最早提出了激活-擴(kuò)散模型。他們認(rèn)為個(gè)體內(nèi)部知識(shí)不是按層次組織的,而是根據(jù)語(yǔ)義關(guān)系或語(yǔ)義之間的距離來(lái)組織和表示的,并提出了描述人類(lèi)認(rèn)知的激活-擴(kuò)散模型。
 激活-擴(kuò)散模型認(rèn)為,個(gè)體頭腦里所存儲(chǔ)的知識(shí)是一種組織巨大的概念網(wǎng)絡(luò),概念之間是通過(guò)語(yǔ)義關(guān)系相關(guān)聯(lián)。激活-擴(kuò)散模型有兩個(gè)關(guān)于知識(shí)結(jié)構(gòu)的假設(shè):(1)連接節(jié)點(diǎn)的線段表示概念之間的聯(lián)系,連線越短,表明兩個(gè)概念之間的聯(lián)系越緊密;(2)語(yǔ)義的距離是知識(shí)組織的基本原則,即概念的內(nèi)涵是由它相關(guān)聯(lián)的其他概念,特別是聯(lián)系密切的概念來(lái)確定的。它認(rèn)為,當(dāng)概念出現(xiàn)時(shí),認(rèn)知中相應(yīng)的概念節(jié)點(diǎn)會(huì)被激活,被激活了的概念節(jié)點(diǎn)就開(kāi)始擴(kuò)散到其他的概念,特別是那些在語(yǔ)義上有緊密聯(lián)系的概念。而激活-擴(kuò)散的遠(yuǎn)近主要由以下因素決定:最初被激活節(jié)點(diǎn)的激活強(qiáng)度、從最初被激活的節(jié)點(diǎn)到目前節(jié)點(diǎn)的語(yǔ)義距離、擴(kuò)散時(shí)間等。
20世紀(jì)80年代,激活-擴(kuò)散模型已經(jīng)被應(yīng)用到信息檢索領(lǐng)域,主要運(yùn)用在文檔和詞匯查詢(xún)過(guò)程中用以擴(kuò)展詞匯和文檔集。F.Crestani曾經(jīng)綜述了激活-擴(kuò)散模型在信息檢索領(lǐng)域中的應(yīng)用,指出了激活-擴(kuò)散模型中典型的四點(diǎn)約束:扇出約束、路徑約束、距離約束以及激活約束。本文試圖在信息檢索領(lǐng)域直接按照激活-擴(kuò)散模型的本意來(lái)描述用戶(hù)的認(rèn)知結(jié)構(gòu),并把它應(yīng)用到個(gè)性化信息檢索中。

 

 


3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)設(shè)置

 為了表現(xiàn)出在領(lǐng)域本體上構(gòu)建模型ObSAM比通用本體有優(yōu)勢(shì),實(shí)驗(yàn)中采用了2個(gè)本體進(jìn)行對(duì)比,一個(gè)是通用本體WordNet,另一個(gè)是經(jīng)濟(jì)學(xué)領(lǐng)域本體EO(economic ontology)(假設(shè)該領(lǐng)域本體包含所有的經(jīng)濟(jì)領(lǐng)域詞匯)。WordNet的讀取采用了SourceForge開(kāi)放源碼社區(qū)提供的JWNL接口(http://sourceforge.net/projects/jwordnet);EO是NSFC資助項(xiàng)目“通用網(wǎng)上知識(shí)編輯器及示范主題語(yǔ)義網(wǎng)研究”的一部分成果,基本包含了經(jīng)濟(jì)學(xué)領(lǐng)域的重要概念和關(guān)系。
 對(duì)應(yīng)于兩種不同的本體,相應(yīng)采用的測(cè)試數(shù)據(jù)集是:一個(gè)是美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)局NIST(National Institute of Standards and Technology)與2004年公開(kāi)發(fā)布的TREC2001 Filtering Track中使用的REuters數(shù)據(jù)集(http://www.jmlr.org/papers/volume5/lewis04a/lyrl2004_rcv1v2_README.htm),另一個(gè)是中國(guó)人民大學(xué)數(shù)字圖書(shū)館個(gè)性化服務(wù)系統(tǒng)DLPers V2.0中的數(shù)字資源作為測(cè)試數(shù)據(jù)集。
3.2 實(shí)驗(yàn)評(píng)測(cè)標(biāo)準(zhǔn)和實(shí)驗(yàn)結(jié)果分析
 實(shí)驗(yàn)主要從查詢(xún)準(zhǔn)確率方面進(jìn)行評(píng)價(jià),查準(zhǔn)率采用Precision@n和AP@k來(lái)衡量。Precision@n是前n個(gè)結(jié)果文檔中查詢(xún)準(zhǔn)確率,用來(lái)衡量大多數(shù)用戶(hù)關(guān)注的前n個(gè)結(jié)果文檔的準(zhǔn)確率。AP@k用來(lái)衡量前n個(gè)結(jié)果文檔中相關(guān)文檔的排序情況。Precision@n和AP@k在一起能更全面對(duì)top-k檢索結(jié)果進(jìn)行評(píng)價(jià),因?yàn)榇蠖鄶?shù)用戶(hù)習(xí)慣在檢索過(guò)程中主要關(guān)注top-k檢索結(jié)果[7]。

 本文以認(rèn)知心理學(xué)上的“激活-擴(kuò)散模型”為基礎(chǔ),提出了一種基于用戶(hù)認(rèn)知結(jié)構(gòu)的ObSAM模型。它具有以下優(yōu)點(diǎn):(1)它是基于領(lǐng)域本體而不是通用本體。由于人類(lèi)知識(shí)的構(gòu)建本身是分領(lǐng)域進(jìn)行的,所以基于領(lǐng)域本體更有利于表達(dá)用戶(hù)的認(rèn)知結(jié)構(gòu),可以提供更精確和細(xì)致的分析。(2)基于概念之間的概念相關(guān)度來(lái)合理刻畫(huà)出用戶(hù)的認(rèn)知深度,對(duì)用戶(hù)的個(gè)性化需求增加了定量分析,從認(rèn)知廣度和認(rèn)知深度兩個(gè)方面,加深對(duì)用戶(hù)個(gè)性化需求的理解。
參考文獻(xiàn)
[1] Berners-Lee T, Hendler J, Lassila O.The Semantic Web-A New Form Of Web Content That is Meaningful to Computers Will Unleash a Revolution of New Possibilities[J]. Scientific American, 2001, 284(5):34-43.
[2] Berners-Lee T, Hendler J. Publishing On The Semantic Web-the Coming Internet Revolution Will Profoundly Affect Scientific Information[J]. Nature 2001,410(6832):1023-1024.
[3] Middleton S, Shadbolt N, De Roure D.Ontological user profiling in recommender systems[J]. ACM Transactions on Information Systems 2004,22(1):54-88.
[4] Sieg A, Mobasher B, Burke R, et al. Representing User Information Context with Ontologies[C]. In: Proceedings of 11thInternational Conference on Human-Computer Interaction(HCII2005); Las Vegas, Nevada, USA,2005.
[5] Chaffee J, Gauch S. Personal Ontologies for Web Navigation[C]. In: Proceedings of the ninth international conference on Information and knowledge management;McLean,Va.,USA,2000, P.227-234.
[6] 梁寧建.當(dāng)代認(rèn)知心理學(xué)[M].上海:上海教育出版社,2003.
[7] 田萱,杜小勇,李海華.語(yǔ)義查詢(xún)擴(kuò)展中詞語(yǔ)-概念相關(guān)度的計(jì)算[J],軟件學(xué)報(bào),2008,19(8):2043-2053.
 

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。