摘 要: 隨著Web Mining技術(shù)的應(yīng)用,基于Web Mining技術(shù)的推薦系統(tǒng)得到了迅速發(fā)展。本文就此系統(tǒng)作了一些改進(jìn),并提出了工作框架RESIK。
關(guān)鍵詞: 推薦系統(tǒng);Web Mining;興趣度知識(shí)
隨著網(wǎng)絡(luò)應(yīng)用的不斷普及,越來(lái)越多的公司將注意力從傳統(tǒng)商務(wù)轉(zhuǎn)向了電子商務(wù),這在方便了用戶瀏覽和購(gòu)買(mǎi)產(chǎn)品的同時(shí),也帶來(lái)了如何讓用戶盡快地從上百萬(wàn)件產(chǎn)品中找到所需產(chǎn)品的難題。為了解決這個(gè)問(wèn)題,提出了推薦系統(tǒng)技術(shù)。
推薦系統(tǒng)被電子商務(wù)站點(diǎn)用來(lái)向用戶提供信息以幫助用戶選擇產(chǎn)品,它根據(jù)統(tǒng)計(jì)結(jié)果或者用戶以前的瀏覽和購(gòu)買(mǎi)記錄來(lái)預(yù)測(cè)用戶未來(lái)的行為,向用戶推薦產(chǎn)品。由于基于傳統(tǒng)技術(shù)的推薦系統(tǒng)有很多缺陷[1-4],所以能夠克服這些缺陷的基于Web Mining的推薦系統(tǒng)近來(lái)得到了迅速發(fā)展,其主要的工作流程如圖1所示。

一般而言,推薦系統(tǒng)由兩部分構(gòu)成:離線部分和在線部分。離線部分對(duì)數(shù)據(jù)進(jìn)行處理,生成相應(yīng)的模型;在線部分應(yīng)用離線部分的處理結(jié)果,根據(jù)用戶的當(dāng)前會(huì)話,向用戶推薦個(gè)性化的信息。推薦系統(tǒng)所提供信息的個(gè)性化程度分為三類(lèi):
(1)非個(gè)性化信息,在同一個(gè)點(diǎn)上站點(diǎn)提供給所有用戶的信息都是相同的(一般是由管理員或其他人編輯好,然后提供給用戶)。
(2)淺度個(gè)性化信息,站點(diǎn)根據(jù)瀏覽路徑和瀏覽行為的不同向用戶提供不同的信息。
(3)深度個(gè)性化信息,即使不同用戶具有相同的瀏覽路徑和瀏覽行為,站點(diǎn)也會(huì)根據(jù)歷史興趣的不同向他們提供不同的信息。
推薦系統(tǒng)一般提供的是淺度個(gè)性化和深度個(gè)性化信息。
基于Web Mining的推薦系統(tǒng)也有其自身的缺陷,本文就此系統(tǒng)作了一些改進(jìn),并提出了工作框架RESIK(Recommendation System based on Interest Knowledge)。
1 RESIK框架的提出
基于Web Mining的推薦系統(tǒng)的缺陷主要表現(xiàn)在[5]:
(1)不正確的推薦。對(duì)于推薦給用戶的頁(yè)面,有可能是用戶不感興趣的信息,下次推薦時(shí)就不應(yīng)該再向該用戶推薦相關(guān)內(nèi)容的頁(yè)面。而推薦系統(tǒng)主要是根據(jù)用戶會(huì)話進(jìn)行推薦,如果下次該用戶以同樣的瀏覽順序訪問(wèn)網(wǎng)站時(shí),則推薦系統(tǒng)將會(huì)把用戶不感興趣的信息再次推薦給用戶。
(2)新加入的信息。對(duì)于新加入的頁(yè)面,由于沒(méi)有任何瀏覽記錄與之相關(guān),所以在線推薦時(shí),無(wú)法將其推薦給用戶。更有甚者,對(duì)于一個(gè)網(wǎng)頁(yè)來(lái)說(shuō),如果經(jīng)常得到推薦,則其瀏覽次數(shù)也會(huì)增加,下次該網(wǎng)頁(yè)得到推薦的機(jī)會(huì)也將增加,這顯然是不合理的。
本文基于以上的缺陷,提出了一個(gè)推薦系統(tǒng)的工作框架RESIK。
RESIK框架與基于Web Mining的推薦系統(tǒng)一樣,也分為離線和在線兩部分,所不同的是,RESIK在線推薦時(shí),不僅使用離線部分的處理結(jié)果,而且還根據(jù)要推薦的信息對(duì)該用戶的興趣度進(jìn)行判斷,只有當(dāng)興趣度超過(guò)設(shè)定的閾值,才認(rèn)為要推薦的信息對(duì)該用戶是有用的。
RESIK的工作流程如圖2所示。

圖中,興趣度知識(shí)庫(kù)存儲(chǔ)的是經(jīng)過(guò)興趣度分析得到的網(wǎng)頁(yè)與用戶的相關(guān)興趣度,在線推薦時(shí),不僅將離線所生成的結(jié)果模型推薦給用戶,還要將與該用戶相關(guān)興趣度高的新加入的頁(yè)面推薦給用戶。因?yàn)榕d趣度知識(shí)庫(kù)是在離線部分生成的,這樣在線推薦時(shí)只需要增加很小的開(kāi)銷(xiāo)就能解決新加入信息的缺陷。
對(duì)于多次將用戶不感興趣的同一信息推薦給用戶的缺陷,也可以通過(guò)興趣度知識(shí)庫(kù)來(lái)解決。在線推薦時(shí),根據(jù)要推薦的頁(yè)面對(duì)興趣度知識(shí)庫(kù)進(jìn)行查找,只有該頁(yè)面對(duì)用戶的相關(guān)興趣度超過(guò)設(shè)定的閾值時(shí),才將其推薦給用戶。
另外,興趣度知識(shí)庫(kù)也可以由管理員向其中人工添加規(guī)則。例如,將某些重要信息設(shè)置為對(duì)所有用戶都有很高的興趣度,這樣在用戶訪問(wèn)網(wǎng)站時(shí),都會(huì)得到該信息的推薦。
2 RESIK的詳細(xì)處理過(guò)程[2,4-5]
2.1 數(shù)據(jù)收集與預(yù)處理
RESIK工作所需要的數(shù)據(jù)主要有三類(lèi):日志文件、站點(diǎn)文件和站點(diǎn)結(jié)構(gòu)。日志文件存儲(chǔ)了用戶訪問(wèn)站點(diǎn)的信息,包括瀏覽路徑、瀏覽時(shí)間等;站點(diǎn)文件包括頁(yè)面,用戶注冊(cè)信息等;站點(diǎn)結(jié)構(gòu)即拓?fù)浣Y(jié)構(gòu),包含了頁(yè)面的鏈入鏈出信息。
在進(jìn)行具體的挖掘和分析之前,需要對(duì)采集的數(shù)據(jù)進(jìn)行預(yù)處理,以將它們轉(zhuǎn)換成符合挖掘所需要的高質(zhì)量數(shù)據(jù)。這些預(yù)處理包括內(nèi)容預(yù)處理和使用預(yù)處理。
內(nèi)容預(yù)處理為站點(diǎn)文件建立挖掘所需要的特征表示,根據(jù)TFIDF對(duì)文件抽取關(guān)鍵詞并建立VSM模型,即對(duì)關(guān)鍵詞集合

使用預(yù)處理的任務(wù)是將采集的用戶訪問(wèn)信息加工成可靠的事務(wù)文件,包括以下步驟:
(1)數(shù)據(jù)凈化:Web訪問(wèn)日志內(nèi)存儲(chǔ)的大部分信息對(duì)大多數(shù)挖掘而言,都是沒(méi)有利用價(jià)值的,所以必須對(duì)日志進(jìn)行凈化處理。
(2)用戶識(shí)別:對(duì)于已經(jīng)注冊(cè)的用戶,這一步很簡(jiǎn)單;對(duì)于沒(méi)有注冊(cè)的用戶,將日志文件按IP分割,每個(gè)IP對(duì)應(yīng)1個(gè)用戶群,對(duì)同一個(gè)IP的用戶群,根據(jù)請(qǐng)求Agent的不同進(jìn)一步將請(qǐng)求切分到單個(gè)用戶。最終得到每個(gè)用戶的訪問(wèn)記錄。
(3)會(huì)話識(shí)別:對(duì)用戶識(shí)別得出的單個(gè)用戶的訪問(wèn)記錄,以相鄰訪問(wèn)發(fā)生的時(shí)間間隔是否大于30 min來(lái)進(jìn)行會(huì)話識(shí)別。如果大于30 min,就可以認(rèn)為該用戶在兩個(gè)訪問(wèn)的中間點(diǎn)又開(kāi)始了一個(gè)新的會(huì)話。最后得到各個(gè)會(huì)話的訪問(wèn)記錄。
(4)幀頁(yè)面識(shí)別:站點(diǎn)常常使用由多個(gè)頁(yè)面組合而成的幀頁(yè)面。在用戶行為里,幀頁(yè)面是一個(gè)整體,而在日志文件中,幀頁(yè)面卻被分解成了多個(gè)組合頁(yè)面,這種不一致往往會(huì)對(duì)挖掘結(jié)果產(chǎn)生消極的影響。所以需要在會(huì)話識(shí)別的基礎(chǔ)上處理日志記錄中的組合頁(yè)面,進(jìn)行幀頁(yè)面識(shí)別:順次檢查會(huì)話的訪問(wèn)記錄,如果有請(qǐng)求網(wǎng)頁(yè)內(nèi)容含有“Frame”的標(biāo)簽,則以此網(wǎng)頁(yè)組合為初始點(diǎn)使用幀頁(yè)面識(shí)別算法開(kāi)始一個(gè)系列幀頁(yè)面的識(shí)別過(guò)程,否則認(rèn)為請(qǐng)求網(wǎng)頁(yè)獨(dú)自構(gòu)成了1個(gè)幀頁(yè)面。
(5)路徑補(bǔ)缺:路徑補(bǔ)缺的任務(wù)是處理緩存導(dǎo)致的請(qǐng)求缺失。
(6)事務(wù)識(shí)別:挖掘技術(shù)處理的粒度是用戶的一個(gè)行為,所以要進(jìn)行事務(wù)識(shí)別。事務(wù)識(shí)別得到用戶的訪問(wèn)事務(wù)集。
數(shù)據(jù)預(yù)處理可以改進(jìn)數(shù)據(jù)的質(zhì)量,從而有助于提高其后的挖掘過(guò)程的精度和性能,因此在離線處理部分占有很大比重。
2.2 Web Mining分析
Web Mining所采用的分析技術(shù)主要有由數(shù)據(jù)挖掘技術(shù)演化而來(lái)的關(guān)聯(lián)規(guī)則、聚類(lèi)技術(shù)和序列模式以及一些統(tǒng)計(jì)學(xué)知識(shí),其處理的對(duì)象為預(yù)處理之后的文檔和事務(wù)集合,生成結(jié)果為可用于在線推薦的結(jié)果模型,模型的表示與所采用的分析技術(shù)有關(guān)。
2.3 信息的興趣度分析
興趣度分析以站點(diǎn)用戶的注冊(cè)信息為依據(jù),對(duì)站點(diǎn)文件進(jìn)行分析。首先對(duì)注冊(cè)用戶進(jìn)行訪問(wèn)日志的分析,對(duì)其建立UP(User Profiles):
式中,di為關(guān)鍵詞集合中的元素,w(UP,di)為di關(guān)于某個(gè)用戶的權(quán)重。
然后利用內(nèi)容預(yù)處理的結(jié)果對(duì)每一個(gè)站點(diǎn)文件計(jì)算到各個(gè)用戶的距離,并以此作為用戶的一種興趣度度量,稱(chēng)為軟興趣度知識(shí)。另外,興趣度分析也接受來(lái)自Web服務(wù)器的用戶反饋信息,根據(jù)用戶對(duì)推薦系統(tǒng)所推薦頁(yè)面的反應(yīng)動(dòng)作來(lái)做為用戶的另外一種興趣度度量,稱(chēng)為硬興趣度知識(shí)。
2.4 在線推薦
推薦系統(tǒng)在線推薦時(shí),使用Web Mining分析和信息興趣度分析的結(jié)果得到推薦頁(yè)面,具體推薦過(guò)程如下:
(1)使用推薦系統(tǒng)的一般方法從Web Mining分析的結(jié)果中得到要推薦的頁(yè)面。
(2)將要推薦的頁(yè)面依次和信息興趣度分析的結(jié)果進(jìn)行比較。如果和硬興趣度知識(shí)發(fā)生沖突,則該頁(yè)面絕對(duì)不能推薦給用戶,如果和軟興趣度知識(shí)發(fā)生沖突,則由管理員預(yù)先制定的規(guī)則來(lái)處理。
(3)將軟興趣度知識(shí)中有較高興趣度的頁(yè)面也加入到要推薦的頁(yè)面集合中,得到最終的推薦結(jié)果。
本文的下一步工作將在如下幾個(gè)方面展開(kāi):
(1)將此工作框架應(yīng)用到實(shí)踐當(dāng)中,以檢驗(yàn)其效率和準(zhǔn)確度。
(2)對(duì)于度量用戶對(duì)站點(diǎn)文件的興趣度,希望能夠找到其他更準(zhǔn)確合理的度量算法。
(3)希望找到將Web Mining分析和信息興趣度分析的結(jié)果綜合在一起的更好的方法。
本文簡(jiǎn)要介紹了基于Web Mining技術(shù)的推薦系統(tǒng)及其工作流程,并指出其缺陷,同時(shí)提出了工作框架RESIK來(lái)處理這些缺陷,詳細(xì)描述了RESIK的工作流程,最后提出了下一步的工作方向。
隨著Web的飛速發(fā)展,推薦系統(tǒng)在站點(diǎn)和用戶之間扮演著越來(lái)越重要的角色。相信隨著技術(shù)的發(fā)展,推薦系統(tǒng)也將得到越來(lái)越廣泛的應(yīng)用,更好地為Web應(yīng)用服務(wù)。
參考文獻(xiàn)
[1] SCHAFER J B, KONSTAN J A, RIEDL J. E-commerce recommendation applications[M]. Data Mining and Knowledge Discovery, 2001.
[2] ADOMAVICIUS G, TUZHILIN A. Recommendation technologies: survey of current methods and possible extensions[R]. Working paper, Stern School of Business, New York University, New York. 2003.
[3] NAKAGAWA M, MOBASHER B. Impact of site characteristics on recommendation models based on association rules and sequential patterns[C]. IJCAI'03. 2003.
[4] MOBASHER B. WebPersonalizer: a server-side recommendation system based on Web usage Mining[R]. Technical Report #01-004, DePaul University, School of CTI, 2000.
[5] LI J, ZAIANE O R. Combining usage, content, and structure data to improve Web site recommendation[C]. EC-Web 2004,2004:305-315.
