《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信与网络 > 设计应用 > 基于贝叶斯分类的网上书店潜在用户挖掘
基于贝叶斯分类的网上书店潜在用户挖掘
来源:微型机与应用2011年第1期
董 倩,王克俭,韩宪忠,苑迎春
(河北农业大学 信息科学与技术学院,河北 保定 071001)
摘要: 以网上书店为例,利用贝叶斯分类预测技术,进行了发现潜在客户群体的研究,用随机选取的10组样本进行试验预测,预测准确率达96.5%,表明了该算法是有效的。
Abstract:
Key words :

摘  要:網(wǎng)上書店為例,利用貝葉斯分類預(yù)測技術(shù),進(jìn)行了發(fā)現(xiàn)潛在客戶群體的研究,用隨機(jī)選取的10組樣本進(jìn)行試驗(yàn)預(yù)測,預(yù)測準(zhǔn)確率達(dá)96.5%,表明了該算法是有效的。
關(guān)鍵詞: 數(shù)據(jù)挖掘;貝葉斯分類;潛在用戶;網(wǎng)上書店

 當(dāng)前信息時代發(fā)展迅猛,電子商務(wù)的興起使得用戶和商家都借助于Internet這個平臺進(jìn)行交流,方便用戶購書的網(wǎng)上書店也隨之發(fā)展起來。在服務(wù)成本加大、而收效甚微的前提下,商家面臨著拓寬客戶的問題。挖掘潛在顧客群體,為網(wǎng)站經(jīng)營者在激烈的市場競爭中洞察先機(jī)、調(diào)整有效的顧客服務(wù)策略,提供準(zhǔn)確的參考信息及科學(xué)的決策依據(jù),最終達(dá)到識別潛在顧客、吸引新顧客、真正做到以顧客價值為中心,全方位為其提供整體服務(wù),從而提升品牌、促進(jìn)消費(fèi),在總體上減少商業(yè)成本并增加利潤。
 國內(nèi)外關(guān)于面向Web日志挖掘用戶行為及潛在顧客信息的研究發(fā)現(xiàn),其包括三個過程:數(shù)據(jù)預(yù)處理、模式識別及模式分析[1]。在國外,Ngu D S W和Wu X等人也研究了SiteHelper系統(tǒng),其主要方法是使用信息提取的方法提取頁面信息,并且結(jié)合用戶訪問歷史、用戶個人資料提供的線索,向用戶動態(tài)推薦訪問的頁面,缺點(diǎn)是涉及了比較敏感的用戶個人隱私問題[2]。參考文獻(xiàn)[3]根據(jù)用戶的查詢與目標(biāo)頁面的并發(fā)關(guān)系,分析聚類用戶的存取事務(wù),發(fā)現(xiàn)用戶的個性化搜索模式,對其所需服務(wù)進(jìn)行主動定制。在國內(nèi),參考文獻(xiàn)[4]提出利用數(shù)據(jù)挖掘中的分類方法,根據(jù)已有用戶的訪問信息,訓(xùn)練分類器,其貢獻(xiàn)在于能夠量化地推斷匿名用戶的訪問特性;其不足在于訪問特性本身需要人工定義,存在著缺漏。郭新濤等人提出了一種新的支持站點(diǎn)設(shè)計優(yōu)化的Web使用挖掘方案,該方案基于Web日志中的搜尋路徑統(tǒng)計用戶尋找目標(biāo)花費(fèi)的平均時間,以量化Web頁面的搜尋費(fèi)用,在此基礎(chǔ)上提出了一種數(shù)據(jù)挖掘方法,尋找一組能夠有效壓縮搜尋路徑(降低時間費(fèi)用)的超鏈接,以便挖掘用戶[5]。
 基于上述不足,本文利用數(shù)據(jù)挖掘中貝葉斯分類技術(shù)來研究網(wǎng)上書店中的有關(guān)挖掘潛在用戶的問題。貝葉斯算法作為處理不確定性信息的重要工具,已成功運(yùn)用在統(tǒng)計決策、醫(yī)療診斷、零售業(yè)[6]、考試成績檢測機(jī)制等領(lǐng)域[7]。最為成熟的是,采用貝葉斯算法對郵件進(jìn)行判斷,建立了最優(yōu)化的垃圾郵件過濾技術(shù)[8]。而本文所說的潛在用戶也是具有不確定性,基于這個相似點(diǎn),而選擇使用貝葉斯算法[9]。
1 貝葉斯分類預(yù)測方法
 分類分析就是通過分析示例數(shù)據(jù)庫中的數(shù)據(jù),為每個類別做出準(zhǔn)確的描述、建立分析模型或挖掘出分類規(guī)則,然后用這個分類規(guī)則對新的數(shù)據(jù)記錄進(jìn)行分類,其中貝葉斯分類方法是一種易于使用并且具有最小錯誤率的概率分類法,它以完善的貝葉斯理論為基礎(chǔ),有較強(qiáng)的模型示、學(xué)習(xí)和推理能力,是一種很受歡迎的數(shù)據(jù)挖掘分類方法。貝葉斯分類是統(tǒng)計學(xué)分類方法,可以預(yù)測類成員關(guān)系的可能性,如給定數(shù)據(jù)項(xiàng)屬于一個特定類的概率。

2 貝葉斯分類技術(shù)在網(wǎng)上書店挖掘潛在用戶中的應(yīng)用
 本文以網(wǎng)上書店欲銷售小說為案例,以網(wǎng)上書店的顧客cookies數(shù)據(jù)庫為對象,用貝葉斯分類的挖掘技術(shù)對收集到的已經(jīng)購買過本產(chǎn)品顧客的瀏覽持續(xù)時間、瀏覽次數(shù)、書的銷售類型以及小說類型等數(shù)據(jù)進(jìn)行分析,生成對當(dāng)前數(shù)據(jù)庫有效的用戶分類模型,從中識別顧客購買行為,發(fā)現(xiàn)顧客購物模式和傾向,挖掘潛在用戶,對不同顧客實(shí)施不同的推銷策略,為該商店調(diào)整有效的銷售策略提供一些有用的參考依據(jù)。
2.1 數(shù)據(jù)描述
 首先把分類結(jié)果即目標(biāo)屬性定為兩類:購買和不購買。其中數(shù)據(jù)樣本可用一個五維特征向量X={x1,x2,x3,x4,x5}分別描述以下屬性(瀏覽持續(xù)時間、一天之內(nèi)的瀏覽次數(shù)、書的銷售類型、小說類型、是否購買),其中各屬性的數(shù)據(jù)泛化過程如下:
 瀏覽持續(xù)時間:0表示0~5 min,1表示5~10 min,2表示10~30 min。
 一天之內(nèi)的瀏覽次數(shù):3代表瀏覽1次,4代表瀏覽2次,5代表瀏覽5次。
 書的銷售類型:6代表特價書,7代表熱賣書。
 小說類型:8代表言情小說,9代表武俠小說。
 是否購買:-2代表購買,-1代表不購買。
2.2 預(yù)處理數(shù)據(jù)
 把cookies數(shù)據(jù)庫中的部分信息(顧客購買的子集, 14人)作為訓(xùn)練樣本(可隨機(jī)抽取),推斷一下網(wǎng)站對未知類別樣本的購買情況,以簡單說明貝葉斯分類的一般工作流程。
 表1給出了一個類別標(biāo)記的數(shù)據(jù)項(xiàng)的樣本,它是商店的cookies數(shù)據(jù)庫中抽取的顧客訓(xùn)練集樣本。

 其相應(yīng)的數(shù)據(jù)泛化后的顧客樣本為:
 顧客1{0,3,6,8,-1}   顧客2{0,3,6,9,-1}
 顧客3{1,3,6,8,-2}   顧客4{2,4,6,8,-2}
 顧客5{2,5,7,8,-2}   顧客6{2,5,7,9,-1}
 顧客7{1,5,7,9,-2}   顧客8{0,4,6,8,-1}
 顧客9{0,5,7,8,-2}   顧客10{2,4,7,8,-2}
 顧客11{1,4,7,9,-2}  顧客12{1,4,6,9,-2}
 顧客13{1,3,7,8,-2}  顧客14{2,4,6,9,-1}
2.3 挖掘潛在用戶的算法流程
 基于貝葉斯的挖掘潛在用戶的分類算法流程如圖1所示。

2.4實(shí)例分析
 推斷新樣本X(2,3,6,9)的用戶類別,用貝葉斯分類解法挖掘潛在用戶的每個步驟的結(jié)果為:
 (1)P(是否購買=“購買”)=9/14=0.643,P(是否購買=“不購買”)=5/14=0.357。
 (2)使用貝葉斯算法計算各屬性的所有取值相對于每個類別的概率結(jié)果如表2所示。

 (3)判斷用戶類別
 P(‘10~30 min,瀏覽1次,特價書,武俠小說’|‘購買’)×P(‘購買’)=0.333×0.222×0.333×0.333×0.643=0.005 3
P(‘10~30 min,瀏覽1次,特價書,武俠小說’|‘不購買’)×P(‘不購買’)=0.4×0.4×0.8×0.6×0.357=0.027 4
根據(jù)上述結(jié)果可知,P(‘不購買’)>P(‘購買’),所以由貝葉斯挖掘技術(shù)預(yù)測的新樣本的用戶類為:“是否購買=不購買”,也就是具有這種基本信息的顧客有很大的可能性不購買該商店的產(chǎn)品(武俠小說)。
3 實(shí)驗(yàn)結(jié)果與分析
 為了驗(yàn)證貝葉斯分類方法的正確性和有效性,從cookies數(shù)據(jù)庫隨機(jī)抽取10組樣本,分類結(jié)果如表3所示。可以看出,每組樣本的樣本個數(shù)不確定,其中有9組樣本的正確率達(dá)到了95%以上,在這9組樣本中有5組樣本的正確率達(dá)到了100%,有一組樣本的正確率在95%以下。同時也可以看出,貝葉斯算法的不足之處在于,對發(fā)生頻率較低事件的預(yù)測效果和對于樣本個數(shù)較少的樣本預(yù)測效果不好。從10組樣本的預(yù)測結(jié)果中得出平均正確率為96.5%,說明貝葉斯算法分類的正確率相當(dāng)高,貝葉斯分類算法具有很強(qiáng)的學(xué)習(xí)、推理能力,能很好地利用先驗(yàn)知識。

 本文研究了貝葉斯分類挖掘技術(shù)在購書網(wǎng)站挖掘潛在用戶中的運(yùn)用,基于貝葉斯方法的分類預(yù)測具有形式簡單、易于解釋、預(yù)測結(jié)果正確率高,且可以很容易從不同的領(lǐng)域進(jìn)行推廣等優(yōu)點(diǎn),但是對發(fā)生頻率較低事件的預(yù)測效果不好,在這方面需要進(jìn)一步改進(jìn)。
參考文獻(xiàn)
[1] 王嵐,翟正軍.Web日志挖掘的預(yù)處理及路徑補(bǔ)全算法的研究[J].微電子學(xué)與計算機(jī),2006,23(8):113-114.
[2] NGU D S T, WU X. Sitehelper: A locall’zed agent that helps incremental exploration of the World Wide Web[C]. 6th International World Wide Web Conference. Santa,Clara, CA, 1997: 1249-1255.
[3] DOUG B, ADAM B. Agglomerative clustering of a search engine query log[C]. Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Boston, Massachusetts, United States, 2000. New York: ACM Press, 2000: 407-415.
[4] 張娥,鄭斐峰,馮耕中.Web日志數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理方法研究[J].計算機(jī)應(yīng)用研究,2004,3(2):58-60.
[5] 郭新濤,梁敏,阮備軍,等.挖掘Web日志降低信息搜尋的時間費(fèi)用[J].計算機(jī)研究與發(fā)展,2004,41(10):1737-1747.
[6] 魏小琴,劉慧玲,李明東.樸素貝葉斯分類挖掘技術(shù)在零售業(yè)的應(yīng)用[J].中國西部科技,2008,27(7):28-29.
[7] 任喜峰.基于樸素貝葉斯分類的考試成績監(jiān)測機(jī)制研究[J].統(tǒng)計與決策,2007,59(22):163-164.
[8] 張付志,伍朝輝,姚芳.基于貝葉斯算法的垃圾郵件過濾技術(shù)的研究與改進(jìn)[J].燕山大學(xué)學(xué)報,2009,33(1):47-52.
[9] 李艷,劉信杰,胡學(xué)鋼.數(shù)據(jù)挖掘中樸素貝葉斯分類器的應(yīng)用[J].濰坊學(xué)院學(xué)報,2007,7(4):48-50.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容