《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于FCM算法的電子商務(wù)客戶(hù)分類(lèi)研究
基于FCM算法的電子商務(wù)客戶(hù)分類(lèi)研究
來(lái)源:微型機(jī)與應(yīng)用2013年第15期
鄭曉薇,馬 琳
(遼寧師范大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,遼寧 大連 116081)
摘要: 面對(duì)電子商務(wù)模式下電商對(duì)客戶(hù)競(jìng)爭(zhēng)的現(xiàn)狀,針對(duì)傳統(tǒng)的客戶(hù)分類(lèi)方法的不足,設(shè)計(jì)了一種基于FCM模糊聚類(lèi)算法客戶(hù)分類(lèi)的并行算法。實(shí)驗(yàn)結(jié)果表明設(shè)計(jì)的方法能準(zhǔn)確地對(duì)電商客戶(hù)分類(lèi),在MATLAB集群下并行算法的運(yùn)行取得了明顯的并行效果。
Abstract:
Key words :

摘  要: 面對(duì)電子商務(wù)模式下電商對(duì)客戶(hù)競(jìng)爭(zhēng)的現(xiàn)狀,針對(duì)傳統(tǒng)的客戶(hù)分類(lèi)方法的不足,設(shè)計(jì)了一種基于FCM模糊聚類(lèi)算法客戶(hù)分類(lèi)的并行算法。實(shí)驗(yàn)結(jié)果表明設(shè)計(jì)的方法能準(zhǔn)確地對(duì)電商客戶(hù)分類(lèi),在MATLAB集群下并行算法的運(yùn)行取得了明顯的并行效果。
關(guān)鍵詞: 電子商務(wù)客戶(hù)分類(lèi);FCM算法;MATLAB集群并行

 市場(chǎng)經(jīng)濟(jì)的發(fā)展和網(wǎng)絡(luò)技術(shù)的革新促使電子商務(wù)迅速普及。在競(jìng)爭(zhēng)激烈的電子商務(wù)經(jīng)濟(jì)模式下,客戶(hù)成為電商競(jìng)爭(zhēng)的焦點(diǎn)。電商想要對(duì)客戶(hù)進(jìn)行分析需要將客戶(hù)分類(lèi),找出優(yōu)質(zhì)客戶(hù)、挖掘潛在客戶(hù)才能制定出針對(duì)性的營(yíng)銷(xiāo)策略。電商客戶(hù)分類(lèi)是指根據(jù)客戶(hù)的歷史交易情況將客戶(hù)群劃分為不同的等級(jí),從中找出共同的要素并對(duì)客戶(hù)的消費(fèi)需求及消費(fèi)行為進(jìn)行研究,制定并實(shí)施有效的銷(xiāo)售策略。
 傳統(tǒng)的客戶(hù)分類(lèi)方法是基于經(jīng)驗(yàn)或簡(jiǎn)單統(tǒng)計(jì)方法[1],依據(jù)電商客戶(hù)歷史交易數(shù)據(jù)對(duì)客戶(hù)過(guò)去和現(xiàn)在價(jià)值進(jìn)行分析,忽略了客戶(hù)的潛在價(jià)值和未來(lái)價(jià)值。這兩種方法分類(lèi)主觀性強(qiáng),與分類(lèi)標(biāo)準(zhǔn)的關(guān)聯(lián)性大,分類(lèi)效果不理想。FCM模糊聚類(lèi)算法是多元統(tǒng)計(jì)算法中廣泛應(yīng)用于經(jīng)濟(jì)分析的算法,它是在聚類(lèi)分析算法的基礎(chǔ)上,增加“隸屬度”,用數(shù)學(xué)的方法定量地確定每一個(gè)樣本點(diǎn)與各個(gè)類(lèi)別的親疏關(guān)系,分類(lèi)結(jié)果客觀。此外,面對(duì)電商網(wǎng)站運(yùn)營(yíng)產(chǎn)生的海量歷史交易數(shù)據(jù),本文利用MATLAB集群可以發(fā)揮其適合執(zhí)行數(shù)據(jù)密集型任務(wù)的優(yōu)勢(shì),解決“數(shù)據(jù)大,計(jì)算難”的問(wèn)題,高效地計(jì)算出聚類(lèi)結(jié)果。
 本文基于FCM模糊聚類(lèi)算法設(shè)計(jì)了一個(gè)針對(duì)電商客戶(hù)分類(lèi)的方法,以電商網(wǎng)站凡客誠(chéng)品的歷史交易數(shù)據(jù)為例進(jìn)行實(shí)驗(yàn)測(cè)試設(shè)計(jì)方法的有效性。同時(shí)在MATLAB集群中針對(duì)3個(gè)規(guī)模不同的數(shù)據(jù)進(jìn)行并行計(jì)算實(shí)驗(yàn),做并行化研究。實(shí)驗(yàn)結(jié)果表明FCM模糊聚類(lèi)算法能夠準(zhǔn)確地將電子商務(wù)客戶(hù)分類(lèi),利用MATLAB集群的多個(gè)節(jié)點(diǎn)并行計(jì)算數(shù)據(jù),縮減了計(jì)算數(shù)據(jù)時(shí)間。
1 電子商務(wù)網(wǎng)站客戶(hù)分類(lèi)算法
1.1電子商務(wù)網(wǎng)站客戶(hù)分類(lèi)

 電子商務(wù)客戶(hù)分類(lèi)是電商在收集和整理客戶(hù)交易信息的基礎(chǔ)上,按照客戶(hù)交易記錄把某一類(lèi)的客戶(hù)分到一個(gè)群體的過(guò)程,其原理如圖1所示。

 首先收集電子商務(wù)客戶(hù)的原始交易記錄數(shù)據(jù),利用電子商務(wù)后臺(tái)數(shù)據(jù)或者爬蟲(chóng)技術(shù)爬取。其次是數(shù)據(jù)預(yù)處理環(huán)節(jié),要對(duì)收集的數(shù)據(jù)進(jìn)行規(guī)約和清洗,刪除其中沒(méi)有用處的數(shù)據(jù)。最后通過(guò)FCM模糊聚類(lèi)算法對(duì)輸入數(shù)據(jù)進(jìn)行聚類(lèi)分析,獲得聚類(lèi)分析結(jié)果。電商可以針對(duì)不同消費(fèi)群體制定指定的銷(xiāo)售策略,實(shí)現(xiàn)穩(wěn)定盈利。
1.2 FCM模糊聚類(lèi)算法
 K-means聚類(lèi)分析算法是依據(jù)實(shí)驗(yàn)數(shù)據(jù)本身具備的定性或定量的特征來(lái)對(duì)數(shù)據(jù)進(jìn)行分組歸類(lèi)的方法,方便了解數(shù)據(jù)集的內(nèi)在結(jié)構(gòu),是數(shù)據(jù)挖掘的主要數(shù)據(jù)分析方法[2]。算法優(yōu)勢(shì)是操作簡(jiǎn)單、聚類(lèi)速度快。算法存在的缺陷是容易陷入局部最優(yōu)值,這樣獲得的聚類(lèi)結(jié)果是局部最優(yōu)解而不是全局最優(yōu)解。由于K-means聚類(lèi)分析算法的缺陷,用于電子商務(wù)客戶(hù)分類(lèi)的聚類(lèi)效果不理想。
 模糊聚類(lèi)分析算法FCM(Fuzzy C-Means algorithm)是在K-means聚類(lèi)分析算法的基礎(chǔ)之上,增加“隸屬度”,用數(shù)學(xué)方法定量地確定樣本點(diǎn)與其他各個(gè)樣本的親疏關(guān)系,客觀地劃分樣本集類(lèi)型。能夠客觀地計(jì)算出每一個(gè)客戶(hù)屬于各類(lèi)樣本的概率,分析效果更加精確[3]。FCM模糊聚類(lèi)算法步驟如下:
 FCM模糊聚類(lèi)分析算法的目標(biāo)函數(shù)是:

 



 
   表1是實(shí)驗(yàn)取得的隸屬度矩陣表,結(jié)尾保留4位有效小數(shù)。列代表客戶(hù)編號(hào),行代表4個(gè)類(lèi)別。對(duì)應(yīng)的數(shù)值就是每一個(gè)客戶(hù)屬于每一類(lèi)的概率。每一列概率數(shù)值相加之和為1,代表概率越大,屬于那一類(lèi)的可能性越大。
2.2 舉例實(shí)驗(yàn)分析
    本文先后分別對(duì)這100個(gè)客戶(hù)數(shù)據(jù)進(jìn)行聚類(lèi),分為3類(lèi)、4類(lèi)和5類(lèi)。結(jié)果如圖4和圖5所示。

     第一類(lèi)潛在客戶(hù):該類(lèi)消費(fèi)群體關(guān)心價(jià)格,喜歡打折促銷(xiāo)。流失傾向偏大,對(duì)網(wǎng)站信任度低。雖然具有一定的價(jià)值,但給企業(yè)帶來(lái)的利潤(rùn)小。
    第二類(lèi)小客戶(hù):該群體主要購(gòu)買(mǎi)飾品,企業(yè)從這類(lèi)消費(fèi)群體可以獲得的利潤(rùn)較小。流失傾向偏小,應(yīng)該通過(guò)營(yíng)銷(xiāo)方法使其成為一般客戶(hù)。維持該類(lèi)客戶(hù)對(duì)電子商務(wù)的發(fā)展仍具有一定的意義。
第三類(lèi)優(yōu)質(zhì)客戶(hù):群體主要購(gòu)買(mǎi)服裝,這類(lèi)群體是企業(yè)可以從中獲得利潤(rùn)最大的群體。該類(lèi)群體購(gòu)買(mǎi)優(yōu)質(zhì)產(chǎn)品,且購(gòu)買(mǎi)的數(shù)量多,是企業(yè)的高端顧客。該網(wǎng)站的客戶(hù)忠誠(chéng)度高,在一定時(shí)間內(nèi)購(gòu)買(mǎi)的商品種類(lèi)和交易數(shù)量多,是企業(yè)需要重點(diǎn)維護(hù)的對(duì)象。
    第四類(lèi)一般客戶(hù)群體:主要購(gòu)買(mǎi)服裝,該類(lèi)客戶(hù)偏向于購(gòu)買(mǎi)普通服裝,電商的該類(lèi)客戶(hù)數(shù)量最多。對(duì)網(wǎng)站的產(chǎn)品持肯定態(tài)度,雖然沒(méi)有為電商提供高利潤(rùn),但是交易會(huì)穩(wěn)定持續(xù)地進(jìn)行,是企業(yè)穩(wěn)定生存的基礎(chǔ)。
3 MATLAB集群并行
    MATLAB是一套高性能的數(shù)值計(jì)算和可視化軟件,集數(shù)值分析、矩陣運(yùn)算、圖形處理和信號(hào)處理于一體。MATLAB最大的優(yōu)勢(shì)在于它的強(qiáng)大的科學(xué)計(jì)算能力,專(zhuān)用工具箱具備全面的數(shù)學(xué)函數(shù),能夠執(zhí)行數(shù)據(jù)復(fù)雜型任務(wù)和數(shù)據(jù)密集型任務(wù)[4]。
    (1)實(shí)驗(yàn)環(huán)境:由3臺(tái)PC機(jī)搭建的MATLAB集群。硬件配置:Intel(R)Core(TM)、i3CPU530@2.93 GHz(2CPUs),2 GB內(nèi)存。軟件配置:系統(tǒng)環(huán)境Windows XP、MATLAB(R2011b)。文件大?。阂?guī)模大小為1 GB、2.2 GB、3 GB的3個(gè)數(shù)據(jù)表。
    (2)實(shí)驗(yàn)結(jié)果及分析:本文采用數(shù)據(jù)分割的方式對(duì)FCM模糊聚類(lèi)算法進(jìn)行集群并行計(jì)算。實(shí)驗(yàn)分別在單節(jié)點(diǎn)與多節(jié)點(diǎn)環(huán)境下執(zhí)行,首先在雙節(jié)點(diǎn)環(huán)境下的運(yùn)行時(shí)間小于單節(jié)點(diǎn)下運(yùn)行的時(shí)間,并行效果明顯。其次又分別在4個(gè)節(jié)點(diǎn)與6個(gè)節(jié)點(diǎn)下分別執(zhí)行聚類(lèi)計(jì)算,實(shí)驗(yàn)結(jié)果表明時(shí)間縮短的增量與集群節(jié)點(diǎn)數(shù)目成正比,隨著集群節(jié)點(diǎn)的增加而增大。說(shuō)明用MATLAB集群來(lái)處理本文的數(shù)據(jù)是有效的,發(fā)揮了MATLAB集群處理數(shù)據(jù)密集型任務(wù)的優(yōu)勢(shì),體現(xiàn)了MATLAB集群的高性能。實(shí)驗(yàn)結(jié)果如表4所示。
 
 通過(guò)對(duì)圖6單節(jié)點(diǎn)與雙節(jié)點(diǎn)環(huán)境下運(yùn)行時(shí)間的對(duì)比,可以看出并行計(jì)算時(shí)間短于串行計(jì)算的時(shí)間,且隨著數(shù)據(jù)規(guī)模的加大,時(shí)間縮短增量逐漸提高。圖7顯現(xiàn)了加速比的變化,不同規(guī)模大小數(shù)據(jù)的加速比均隨著集群節(jié)點(diǎn)數(shù)目的增大而增大。由此可以證實(shí),F(xiàn)CM模糊聚類(lèi)算法在并行集群中應(yīng)用于電子商務(wù)客戶(hù)分類(lèi)適用,能夠取得良好的并行效果,輸出結(jié)果時(shí)間縮短。充分說(shuō)明了FCM模糊聚類(lèi)算法并行化的可行性和MATLAB集群的高性能性。
 電子商務(wù)處于蓬勃發(fā)展階段,如何準(zhǔn)確有效地對(duì)消費(fèi)客戶(hù)進(jìn)行分類(lèi)并制定針對(duì)性的營(yíng)銷(xiāo)策略是其盈利的關(guān)鍵。本文針對(duì)這一現(xiàn)實(shí)問(wèn)題,選定多元統(tǒng)計(jì)分析中的FCM模糊聚類(lèi)算法進(jìn)行客戶(hù)分類(lèi)并做了并行化研究。實(shí)驗(yàn)結(jié)果表明,在MATLAB集群中運(yùn)行并行后的FCM模糊聚類(lèi)算法能夠取得良好的并行效率,同時(shí)也驗(yàn)證了MATLAB集群在處理數(shù)據(jù)密集型任務(wù)的高效性。本文設(shè)計(jì)的方法可以應(yīng)用于電子商務(wù)中,對(duì)電子商務(wù)客戶(hù)分析方面有一定的實(shí)際意義。
參考文獻(xiàn)
[1] 朱晶晶.電子商務(wù)網(wǎng)站分類(lèi)體系理解的用戶(hù)心智模型研究[D].南京:南京理工大學(xué),2010.
[2] SELIM S Z. K-Means-type algorithms: A generalized convergence theorem and characterization of local optimality[J]. IEEE Transactions on Pattern Analysis and Machine Intelligce, 1984,6(1): 81-87.
[3] DUNN J C. A fuzzy relative of the IOSDATA process and its use in detecting compact well separated clusters[J].Cybemet.3,197:32-57.
[4] MathWorks. MATLAB Distributed Computing Server 5 System Administrator′s Guide[EB/OL]. http://www.mathworks.com/access/helpdesk/help/pdf_doc/mdce/mdce.pdf, 2010.
[5] 徐瑞,黃兆東,閻鳳玉.MATLAB2007科學(xué)計(jì)算與工程分析[M].北京:科學(xué)出版社,2008.
[6] 瞿小寧.K均值聚類(lèi)算法在商業(yè)銀行客戶(hù)分類(lèi)中的應(yīng)用[J].計(jì)算機(jī)仿真,2011,28(6):357-360.
[7] 李容.基于K均值聚類(lèi)算法的圖書(shū)商品推薦仿真系統(tǒng)[J].計(jì)算機(jī)仿真,2010,27(6):346-349.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。