摘 要: 隨著Web Mining技術(shù)的應(yīng)用,基于Web Mining技術(shù)的推薦系統(tǒng)得到了迅速發(fā)展。本文就此系統(tǒng)作了一些改進(jìn),并提出了工作框架RESIK。
關(guān)鍵詞: 推薦系統(tǒng);Web Mining;興趣度知識
隨著網(wǎng)絡(luò)應(yīng)用的不斷普及,越來越多的公司將注意力從傳統(tǒng)商務(wù)轉(zhuǎn)向了電子商務(wù),這在方便了用戶瀏覽和購買產(chǎn)品的同時(shí),也帶來了如何讓用戶盡快地從上百萬件產(chǎn)品中找到所需產(chǎn)品的難題。為了解決這個(gè)問題,提出了推薦系統(tǒng)技術(shù)。
推薦系統(tǒng)被電子商務(wù)站點(diǎn)用來向用戶提供信息以幫助用戶選擇產(chǎn)品,它根據(jù)統(tǒng)計(jì)結(jié)果或者用戶以前的瀏覽和購買記錄來預(yù)測用戶未來的行為,向用戶推薦產(chǎn)品。由于基于傳統(tǒng)技術(shù)的推薦系統(tǒng)有很多缺陷[1-4],所以能夠克服這些缺陷的基于Web Mining的推薦系統(tǒng)近來得到了迅速發(fā)展,其主要的工作流程如圖1所示。

一般而言,推薦系統(tǒng)由兩部分構(gòu)成:離線部分和在線部分。離線部分對數(shù)據(jù)進(jìn)行處理,生成相應(yīng)的模型;在線部分應(yīng)用離線部分的處理結(jié)果,根據(jù)用戶的當(dāng)前會話,向用戶推薦個(gè)性化的信息。推薦系統(tǒng)所提供信息的個(gè)性化程度分為三類:
(1)非個(gè)性化信息,在同一個(gè)點(diǎn)上站點(diǎn)提供給所有用戶的信息都是相同的(一般是由管理員或其他人編輯好,然后提供給用戶)。
(2)淺度個(gè)性化信息,站點(diǎn)根據(jù)瀏覽路徑和瀏覽行為的不同向用戶提供不同的信息。
(3)深度個(gè)性化信息,即使不同用戶具有相同的瀏覽路徑和瀏覽行為,站點(diǎn)也會根據(jù)歷史興趣的不同向他們提供不同的信息。
推薦系統(tǒng)一般提供的是淺度個(gè)性化和深度個(gè)性化信息。
基于Web Mining的推薦系統(tǒng)也有其自身的缺陷,本文就此系統(tǒng)作了一些改進(jìn),并提出了工作框架RESIK(Recommendation System based on Interest Knowledge)。
1 RESIK框架的提出
基于Web Mining的推薦系統(tǒng)的缺陷主要表現(xiàn)在[5]:
(1)不正確的推薦。對于推薦給用戶的頁面,有可能是用戶不感興趣的信息,下次推薦時(shí)就不應(yīng)該再向該用戶推薦相關(guān)內(nèi)容的頁面。而推薦系統(tǒng)主要是根據(jù)用戶會話進(jìn)行推薦,如果下次該用戶以同樣的瀏覽順序訪問網(wǎng)站時(shí),則推薦系統(tǒng)將會把用戶不感興趣的信息再次推薦給用戶。
(2)新加入的信息。對于新加入的頁面,由于沒有任何瀏覽記錄與之相關(guān),所以在線推薦時(shí),無法將其推薦給用戶。更有甚者,對于一個(gè)網(wǎng)頁來說,如果經(jīng)常得到推薦,則其瀏覽次數(shù)也會增加,下次該網(wǎng)頁得到推薦的機(jī)會也將增加,這顯然是不合理的。
本文基于以上的缺陷,提出了一個(gè)推薦系統(tǒng)的工作框架RESIK。
RESIK框架與基于Web Mining的推薦系統(tǒng)一樣,也分為離線和在線兩部分,所不同的是,RESIK在線推薦時(shí),不僅使用離線部分的處理結(jié)果,而且還根據(jù)要推薦的信息對該用戶的興趣度進(jìn)行判斷,只有當(dāng)興趣度超過設(shè)定的閾值,才認(rèn)為要推薦的信息對該用戶是有用的。
RESIK的工作流程如圖2所示。

圖中,興趣度知識庫存儲的是經(jīng)過興趣度分析得到的網(wǎng)頁與用戶的相關(guān)興趣度,在線推薦時(shí),不僅將離線所生成的結(jié)果模型推薦給用戶,還要將與該用戶相關(guān)興趣度高的新加入的頁面推薦給用戶。因?yàn)榕d趣度知識庫是在離線部分生成的,這樣在線推薦時(shí)只需要增加很小的開銷就能解決新加入信息的缺陷。
對于多次將用戶不感興趣的同一信息推薦給用戶的缺陷,也可以通過興趣度知識庫來解決。在線推薦時(shí),根據(jù)要推薦的頁面對興趣度知識庫進(jìn)行查找,只有該頁面對用戶的相關(guān)興趣度超過設(shè)定的閾值時(shí),才將其推薦給用戶。
另外,興趣度知識庫也可以由管理員向其中人工添加規(guī)則。例如,將某些重要信息設(shè)置為對所有用戶都有很高的興趣度,這樣在用戶訪問網(wǎng)站時(shí),都會得到該信息的推薦。
2 RESIK的詳細(xì)處理過程[2,4-5]
2.1 數(shù)據(jù)收集與預(yù)處理
RESIK工作所需要的數(shù)據(jù)主要有三類:日志文件、站點(diǎn)文件和站點(diǎn)結(jié)構(gòu)。日志文件存儲了用戶訪問站點(diǎn)的信息,包括瀏覽路徑、瀏覽時(shí)間等;站點(diǎn)文件包括頁面,用戶注冊信息等;站點(diǎn)結(jié)構(gòu)即拓?fù)浣Y(jié)構(gòu),包含了頁面的鏈入鏈出信息。
在進(jìn)行具體的挖掘和分析之前,需要對采集的數(shù)據(jù)進(jìn)行預(yù)處理,以將它們轉(zhuǎn)換成符合挖掘所需要的高質(zhì)量數(shù)據(jù)。這些預(yù)處理包括內(nèi)容預(yù)處理和使用預(yù)處理。
內(nèi)容預(yù)處理為站點(diǎn)文件建立挖掘所需要的特征表示,根據(jù)TFIDF對文件抽取關(guān)鍵詞并建立VSM模型,即對關(guān)鍵詞集合

使用預(yù)處理的任務(wù)是將采集的用戶訪問信息加工成可靠的事務(wù)文件,包括以下步驟:
(1)數(shù)據(jù)凈化:Web訪問日志內(nèi)存儲的大部分信息對大多數(shù)挖掘而言,都是沒有利用價(jià)值的,所以必須對日志進(jìn)行凈化處理。
(2)用戶識別:對于已經(jīng)注冊的用戶,這一步很簡單;對于沒有注冊的用戶,將日志文件按IP分割,每個(gè)IP對應(yīng)1個(gè)用戶群,對同一個(gè)IP的用戶群,根據(jù)請求Agent的不同進(jìn)一步將請求切分到單個(gè)用戶。最終得到每個(gè)用戶的訪問記錄。
(3)會話識別:對用戶識別得出的單個(gè)用戶的訪問記錄,以相鄰訪問發(fā)生的時(shí)間間隔是否大于30 min來進(jìn)行會話識別。如果大于30 min,就可以認(rèn)為該用戶在兩個(gè)訪問的中間點(diǎn)又開始了一個(gè)新的會話。最后得到各個(gè)會話的訪問記錄。
(4)幀頁面識別:站點(diǎn)常常使用由多個(gè)頁面組合而成的幀頁面。在用戶行為里,幀頁面是一個(gè)整體,而在日志文件中,幀頁面卻被分解成了多個(gè)組合頁面,這種不一致往往會對挖掘結(jié)果產(chǎn)生消極的影響。所以需要在會話識別的基礎(chǔ)上處理日志記錄中的組合頁面,進(jìn)行幀頁面識別:順次檢查會話的訪問記錄,如果有請求網(wǎng)頁內(nèi)容含有“Frame”的標(biāo)簽,則以此網(wǎng)頁組合為初始點(diǎn)使用幀頁面識別算法開始一個(gè)系列幀頁面的識別過程,否則認(rèn)為請求網(wǎng)頁獨(dú)自構(gòu)成了1個(gè)幀頁面。
(5)路徑補(bǔ)缺:路徑補(bǔ)缺的任務(wù)是處理緩存導(dǎo)致的請求缺失。
(6)事務(wù)識別:挖掘技術(shù)處理的粒度是用戶的一個(gè)行為,所以要進(jìn)行事務(wù)識別。事務(wù)識別得到用戶的訪問事務(wù)集。
數(shù)據(jù)預(yù)處理可以改進(jìn)數(shù)據(jù)的質(zhì)量,從而有助于提高其后的挖掘過程的精度和性能,因此在離線處理部分占有很大比重。
2.2 Web Mining分析
Web Mining所采用的分析技術(shù)主要有由數(shù)據(jù)挖掘技術(shù)演化而來的關(guān)聯(lián)規(guī)則、聚類技術(shù)和序列模式以及一些統(tǒng)計(jì)學(xué)知識,其處理的對象為預(yù)處理之后的文檔和事務(wù)集合,生成結(jié)果為可用于在線推薦的結(jié)果模型,模型的表示與所采用的分析技術(shù)有關(guān)。
2.3 信息的興趣度分析
興趣度分析以站點(diǎn)用戶的注冊信息為依據(jù),對站點(diǎn)文件進(jìn)行分析。首先對注冊用戶進(jìn)行訪問日志的分析,對其建立UP(User Profiles):
式中,di為關(guān)鍵詞集合中的元素,w(UP,di)為di關(guān)于某個(gè)用戶的權(quán)重。
然后利用內(nèi)容預(yù)處理的結(jié)果對每一個(gè)站點(diǎn)文件計(jì)算到各個(gè)用戶的距離,并以此作為用戶的一種興趣度度量,稱為軟興趣度知識。另外,興趣度分析也接受來自Web服務(wù)器的用戶反饋信息,根據(jù)用戶對推薦系統(tǒng)所推薦頁面的反應(yīng)動作來做為用戶的另外一種興趣度度量,稱為硬興趣度知識。
2.4 在線推薦
推薦系統(tǒng)在線推薦時(shí),使用Web Mining分析和信息興趣度分析的結(jié)果得到推薦頁面,具體推薦過程如下:
(1)使用推薦系統(tǒng)的一般方法從Web Mining分析的結(jié)果中得到要推薦的頁面。
(2)將要推薦的頁面依次和信息興趣度分析的結(jié)果進(jìn)行比較。如果和硬興趣度知識發(fā)生沖突,則該頁面絕對不能推薦給用戶,如果和軟興趣度知識發(fā)生沖突,則由管理員預(yù)先制定的規(guī)則來處理。
(3)將軟興趣度知識中有較高興趣度的頁面也加入到要推薦的頁面集合中,得到最終的推薦結(jié)果。
本文的下一步工作將在如下幾個(gè)方面展開:
(1)將此工作框架應(yīng)用到實(shí)踐當(dāng)中,以檢驗(yàn)其效率和準(zhǔn)確度。
(2)對于度量用戶對站點(diǎn)文件的興趣度,希望能夠找到其他更準(zhǔn)確合理的度量算法。
(3)希望找到將Web Mining分析和信息興趣度分析的結(jié)果綜合在一起的更好的方法。
本文簡要介紹了基于Web Mining技術(shù)的推薦系統(tǒng)及其工作流程,并指出其缺陷,同時(shí)提出了工作框架RESIK來處理這些缺陷,詳細(xì)描述了RESIK的工作流程,最后提出了下一步的工作方向。
隨著Web的飛速發(fā)展,推薦系統(tǒng)在站點(diǎn)和用戶之間扮演著越來越重要的角色。相信隨著技術(shù)的發(fā)展,推薦系統(tǒng)也將得到越來越廣泛的應(yīng)用,更好地為Web應(yīng)用服務(wù)。
參考文獻(xiàn)
[1] SCHAFER J B, KONSTAN J A, RIEDL J. E-commerce recommendation applications[M]. Data Mining and Knowledge Discovery, 2001.
[2] ADOMAVICIUS G, TUZHILIN A. Recommendation technologies: survey of current methods and possible extensions[R]. Working paper, Stern School of Business, New York University, New York. 2003.
[3] NAKAGAWA M, MOBASHER B. Impact of site characteristics on recommendation models based on association rules and sequential patterns[C]. IJCAI'03. 2003.
[4] MOBASHER B. WebPersonalizer: a server-side recommendation system based on Web usage Mining[R]. Technical Report #01-004, DePaul University, School of CTI, 2000.
[5] LI J, ZAIANE O R. Combining usage, content, and structure data to improve Web site recommendation[C]. EC-Web 2004,2004:305-315.
