摘 要: 闡述了飾品企業(yè)營銷的現(xiàn)狀,提出了將數(shù)據(jù)挖掘技術(shù)應(yīng)用到飾品營銷中的方案。在分析決策樹算法的基礎(chǔ)上,介紹了決策樹算法及決策樹的構(gòu)造,并使用該算法對企業(yè)客戶進(jìn)行分類及對新客戶類型預(yù)測,實現(xiàn)對商業(yè)數(shù)據(jù)中隱藏信息的挖掘,且對該挖掘模型進(jìn)行了驗證。
關(guān)鍵詞: 數(shù)據(jù)挖掘;決策樹;飾品營銷;挖掘模型
自從有人類開始,飾品便與服裝同時出現(xiàn),發(fā)展到今天,已有久遠(yuǎn)的歷史。怎樣將飾品融入現(xiàn)代文化觀念,怎樣設(shè)計新的飾品,及什么樣的設(shè)計才能被消費者接受,都是新一代飾品設(shè)計所面臨的新問題。信息化的推進(jìn)讓企業(yè)積累了大量的數(shù)據(jù),企業(yè)必須有效管理已有的信息,而這些數(shù)據(jù)通常是零散的、不規(guī)范的,像噪聲數(shù)據(jù)、空缺數(shù)據(jù)和不一致數(shù)據(jù)等問題都會給領(lǐng)導(dǎo)的決策帶來了困擾?,F(xiàn)在企業(yè)面臨的一個共同問題是企業(yè)數(shù)據(jù)量非常大,而其中真正有價值的信息卻很少。數(shù)據(jù)挖掘技術(shù)的出現(xiàn),給企業(yè)決策者帶來了輔助決策支持。企業(yè)可以利用先進(jìn)的數(shù)據(jù)挖掘和商務(wù)智能分析技術(shù)對信息進(jìn)行加工,企業(yè)領(lǐng)導(dǎo)必須將經(jīng)營模式轉(zhuǎn)變?yōu)橐钥蛻魹橹行?,為客戶提供個性化服務(wù)。準(zhǔn)確的客戶分類是企業(yè)有效地實施客戶關(guān)系管理的基礎(chǔ)??蛻舴诸愂歉鶕?jù)客戶屬性來劃分客戶集合,通過獲得的客戶類別來分析和預(yù)測客戶的消費模式。建立起一對一的客戶服務(wù)體系,實行差異化的客戶管理[1]。
1 數(shù)據(jù)挖掘技術(shù)
1.1 數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)[2]。數(shù)據(jù)挖掘技術(shù)在飾品營銷管理上的應(yīng)用主要體現(xiàn)在通過數(shù)據(jù)挖掘來分析不同類型顧客的需求特征,尋找顧客購買的行為模式及其規(guī)律,從而為營銷策略的制定提供依據(jù)。通過數(shù)據(jù)挖掘,可以對營銷策略及措施的實施結(jié)果進(jìn)行分析,進(jìn)而對營銷活動的效果做出評估,為進(jìn)一步改進(jìn)營銷決策提供參考。
1.2 決策樹算法
1.2.1 算法概述
決策樹是數(shù)據(jù)挖掘中應(yīng)用最廣泛的技術(shù)之一,是用于分類和預(yù)測的主要技術(shù),決策樹學(xué)習(xí)是以實例為基礎(chǔ)的歸納學(xué)習(xí)算法,著眼于從一組無次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則[3]。它是運用于分類的一種樹結(jié)構(gòu),其中的每個內(nèi)部節(jié)點非葉子節(jié)點代表對某個屬性的一次測試,一條邊代表一個測試結(jié)果,葉子代表某個類或者類的分布,最上面的節(jié)點是根節(jié)點。用決策樹進(jìn)行分類首先利用訓(xùn)練集建立并精化一棵決策樹,建立決策樹模型,然后利用生成的決策樹對輸入數(shù)據(jù)進(jìn)行分類,從根節(jié)點依次測試記錄的屬性值,直到到達(dá)某個葉子節(jié)點,從而找到該記錄所在的類。
1.2.2 決策樹構(gòu)造
以信息論原理為基礎(chǔ),利用信息論中信息增益尋找數(shù)據(jù)庫中具有最大信息量的字段,建立決策樹的一個節(jié)點,然后根據(jù)字段的不同取值建立樹的分支,在每個分支中重復(fù)建立樹的下層節(jié)點和分支。
設(shè)S是訓(xùn)練樣本的集合,其中每個樣本的類標(biāo)號都是已知的。假定有m個類,集合S中類別Ci的記錄個數(shù)是Ni個, i=1,2,…,m。
設(shè)屬性A具有值{a1,…,av},屬性A可以用來對S進(jìn)行分組,將S分為子集S1,…,Sv,其中Sj包含S中值為aj的那些樣本。設(shè)Sj包含類Ci的Sij個樣本。根據(jù)A的這種劃分的期望信息稱為屬性A的熵,為:

熵是一個衡量系統(tǒng)混亂程度的統(tǒng)計量。熵越大,表示系統(tǒng)越混亂。分類的目的是提取系統(tǒng)信息,使系統(tǒng)向更加有序、有規(guī)則組織的方向發(fā)展。所以自然而然的,最佳的分裂方案是使熵減少量最大。熵減少量就是Information Gain,所以,最佳分裂就是使Gain(A)最大的分裂方案[4]。
根據(jù)XG飾品有限公司的客戶數(shù)據(jù)集D,構(gòu)造“客戶類別”的分類決策樹。根據(jù)計算可以得到各個屬性的Gain值,決定決策樹各級別的屬性,圖1顯示了該決策樹可預(yù)測列的屬性值。

決策樹算法是一個貪心算法,采用自頂向下的遞歸方式,通常分為兩個階段:決策樹的生成(Building)和決策樹修剪(Pruning)。建立樹的過程是不斷地把數(shù)據(jù)分割的過程,開始時數(shù)據(jù)都在根節(jié)點,然后遞歸地進(jìn)行數(shù)據(jù)分片,產(chǎn)生下一級節(jié)點。每次分割對應(yīng)一個問題,也對應(yīng)一個節(jié)點。樹的剪枝即去掉一些可能是噪聲或異常的數(shù)據(jù)。在微軟的決策樹中,樹中的每一個節(jié)點代表一列特定事例,將此節(jié)點放在何處由算法計算做出,而且與其兄弟在不同深度的節(jié)點可能代表每列不同的事例,樹結(jié)構(gòu)的節(jié)點代表進(jìn)一步對數(shù)據(jù)進(jìn)行分類的單個問題。下面給出一種二叉樹的建樹算法程序[3]:
Procedure BuildingTree (S,Q)
Initialize, root node using data set S;
Initialize, queue Q to contain root node
While Q is not empty do{
Dequeue the first node N in Q
If node N is not qure then {
for each attribute k
Evaluate splites N into N1 and N2
Append N1 and N2 to Q } }
2 數(shù)據(jù)挖掘技術(shù)在飾品營銷中的應(yīng)用
本文依托項目的企業(yè)目前采取的客戶政策比較被動,靠的是老客戶帶來新客戶,并沒有主動尋找新客戶,由于種種原因,客戶源非常不穩(wěn)定,因而失去了很大的一片市場。
客戶分類是企業(yè)有效銷售、營銷、服務(wù)的基礎(chǔ),是把大量的客戶分成不同的類,在每個類里的客戶擁有相似的屬性,而不同類別的客戶屬性也不同。通過分類分析推斷哪些客戶群是最有可能購買的客戶,哪些對企業(yè)最有價值,為公司帶來最大利潤的客戶群體的特征是什么。影響客戶分類的因素很多,最主要的因素有客戶自然屬性(如經(jīng)營類型、渠道類型、所在地區(qū)、性別、年齡)、銷售額度等。在談?wù)摽蛻魞r值的時候,要了解客戶的購買力、信譽度等其他的指標(biāo),可以結(jié)合飾品的銷售情況和客戶的信息,通過有關(guān)數(shù)據(jù)挖掘算法進(jìn)行分析。
2.1 數(shù)據(jù)準(zhǔn)備
根據(jù)客戶分類挖掘目標(biāo)決定其數(shù)據(jù)來源,在數(shù)據(jù)倉庫中可以選擇客戶信息表和銷售事實表,它們提供客戶的基本信息和交易信息,由于交易信息流動性很大,因此只選擇銷售事實表中2006年的數(shù)據(jù)。對客戶信息表的屬性只選擇客戶編碼、年齡、客戶類型、教育程度、性別、經(jīng)營品牌、婚姻狀態(tài)、擁有車子數(shù)和年收入;對銷售事實表的屬性只選擇客戶編碼和銷售金額。
由于數(shù)據(jù)挖掘?qū)?shù)據(jù)有一些特殊的要求,因此必須作進(jìn)一步的數(shù)據(jù)處理工作。屬性的選擇是基于一個啟發(fā)式規(guī)則或者一個統(tǒng)計的度量,一般情況下,所選的屬性都是分類屬性,根據(jù)決策樹算法對數(shù)據(jù)的特殊要求,如果屬性是連續(xù)的,需要將其離散化,如客戶購買產(chǎn)品的金額。
在數(shù)據(jù)源視圖中,實現(xiàn)年齡、年收入等連續(xù)數(shù)據(jù)的離散化。對vMemberCard的Age和YearlyIncome創(chuàng)建命名計算,手工離散化列,Age的手工離散化方法如下:
CASE
WHEN [age]<20 THEN ′age<20′
WHEN [age]<30 THEN ′20<=age<30′
WHEN [age]<40 THEN ′30<=age<40′
WHEN [age]<50 THEN ′40<=age<50′
WHEN [age]>=50 THEN 'age>50'
END
以同樣方式實現(xiàn)YearlyIncome的離散化,為數(shù)據(jù)挖掘提供所需的數(shù)據(jù)。
根據(jù)得到的客戶數(shù)據(jù),利用信息增益的計算提取認(rèn)為可能對購買力變量有影響作用的變量作為數(shù)據(jù)挖掘的細(xì)分變量,包含Age、EducationLevel、Gender、MaritalStatus、Region、NumberCarsOwned、TotalChildren、YearlyIncome這些字段。本文中將數(shù)據(jù)劃分為2個表,分別作為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)集用于訓(xùn)練模型,表中有2 300條記錄數(shù);測試數(shù)據(jù)集用于驗證模型的準(zhǔn)確性,表中記錄有700條。
2.2 模型的實現(xiàn)
2.2.1 決策樹算法參數(shù)設(shè)置
Microsoft決策樹算法有許多參數(shù)。這些參數(shù)可以用來控制樹的增長、樹的形狀和輸入/輸出屬性的設(shè)置。通過調(diào)整這些參數(shù)的設(shè)置,可以對模型的精確度進(jìn)行微調(diào),下面介紹本文涉及到的部分參數(shù)[4]。
Complexity_Penalty參數(shù):用來控制樹的增長。它是一個浮點類型的參數(shù),值的范圍在0到1之間。值設(shè)置一般與輸入屬性的數(shù)量有關(guān)。由于本文采用的輸入屬性少于10個,因而將這個值設(shè)得比較小。
Split_Method參數(shù):用來控制樹的形狀。Split_Method=1意味著只能采用二叉的方式進(jìn)行拆分;Split_Method=2意味著采用完全拆分方式;而當(dāng)Split_Method參數(shù)設(shè)置為3,決策樹將會針對實際的問題自動地選擇這兩種方式中較好的一種方式來對節(jié)點進(jìn)行拆分。因而,本文將Split_Method設(shè)為3。
2.2.2 構(gòu)造分類數(shù)據(jù)挖掘模型
使用Analysis Services進(jìn)行本次數(shù)據(jù)挖掘,基于現(xiàn)有數(shù)據(jù)倉庫中的表和列定義挖掘結(jié)構(gòu),以DecorationDW.dsv為數(shù)據(jù)源視圖,vMemberCard指定為分析時要使用的表類型,其中CustomerID變量為鍵,MemberCard變量作為可預(yù)測列,Age、EducationLevel、Gender、MaritalStatus、Region、NumberCarsOwned、TotalChildren、YearlyIncome變量作為輸入列,采用Microsoft決策樹模型為數(shù)據(jù)挖掘模型,且允許對挖掘模型進(jìn)行鉆取操作。
為了進(jìn)行準(zhǔn)確預(yù)測,需要對挖掘模型進(jìn)一步處理,選擇“DecorationDW_OLAP”的vMemberCard作為預(yù)測模型,Dim_Customer為事例表,此時就建立了兩張表之間的映射,以PredictProbability([v Member Card].[Member Card]函數(shù)為預(yù)測函數(shù)對客戶的會員卡類型進(jìn)行歸類、預(yù)測。
經(jīng)過挖掘軟件分析處理后,可以得到該公司客戶群的決策樹模型,將背景設(shè)為“Copper”后將呈現(xiàn)“Copper”客戶群的決策樹模型,如圖2所示。節(jié)點的底紋顏色越深,表示節(jié)點中的事例越多。例如,在第2級中YearlyIncome=“Low”該節(jié)點的底紋顏色較深,說明其中客戶類型為“Copper”的事例YearlyIncome=“Low”所占的比重較大。

通過對決策樹模型的分析可得出一些有用的信息,為公司管理層提供決策支持:
(1)在現(xiàn)有的數(shù)據(jù)基礎(chǔ)上,通過分類分析推斷哪些客戶群是最有可能購買的客戶,哪些對企業(yè)最有價值,為公司帶來最大利潤的客戶群體的特征是什么。
(2)通過決策樹了解到影響各種類型客戶的因素,可隨時關(guān)注各類潛在客戶的動態(tài),擴大客戶群。
(3)根據(jù)分析得到的各類客戶類型的特征及其購買力,輔助公司更準(zhǔn)確地對客戶進(jìn)行定位,企業(yè)可以給不同類型的客戶提供個性化的服務(wù),建立與客戶的一種持續(xù)的個性化的關(guān)系,保持他們對企業(yè)和產(chǎn)品的忠誠,擴大市場,促進(jìn)銷售。
(4)根據(jù)各類客戶類型所占有的比重,調(diào)整公司的生產(chǎn)計劃,以更好地適應(yīng)市場,以客戶為中心。
2.2.3 使用模型預(yù)測客戶
該企業(yè)采用的銷售方式比較靈活,針對于不同購買量的用戶采取不同的折扣,客戶類型分為經(jīng)銷商(即簽約客戶)、零售商和散客。一般地級市銷售額達(dá)到一百萬以上的稱為經(jīng)銷商,可以享受相當(dāng)優(yōu)惠的條件,而地級市以下的銷售額達(dá)到幾十萬元的稱為零售商,普通的少量額度的客戶稱為散客。公司總共有3個品牌的產(chǎn)品,分為內(nèi)銷和外銷兩種方式,客戶根據(jù)自身情況可以與公司簽訂合約,不同銷售方式有不同的優(yōu)惠政策。企業(yè)根據(jù)以往客戶的購買行為作為先驗知識,對每類用戶進(jìn)行分類,根據(jù)每類客戶的特征預(yù)測當(dāng)前客戶將會成為哪類客戶。
輸入一個新客戶屬性,通過DMX語句預(yù)測此客戶類型,如下所示:
SELECT
[v Member Card].[Member Card],
PredictProbability([v Member Card].[Member Card])
From [v MemberCard]
NATURAL PREDICTION JOIN
(SELECT ′30<=age<40′ AS [Age],
′Bachelors′ AS [Education Level],
′Female′ AS [Gender],
′Married′ AS [Marital Status],
2 AS [Number Cars Owned],
′華東′ AS [Region],
1 AS [Total Children],
′Moderate′ AS [Yearly Income]) AS t
查詢將以表的形式返回有關(guān)具有指定特征的客戶的會員卡類型和概率,如圖3所示。從該圖,可以看出輸入的此類客戶最有可能成為Copper類會員,企業(yè)可以根據(jù)挖掘信息對新客戶采取一定的優(yōu)惠政策,從而增加客戶量。

2.2.4 驗證挖掘模型準(zhǔn)確性
以上用了訓(xùn)練集中的2 300條記錄進(jìn)行決策樹模型的構(gòu)造,這個構(gòu)造出的決策樹是否準(zhǔn)確,對其他的記錄是否具有判定和預(yù)測的作用,必須要對其進(jìn)行驗證。在Analysis Services中,把擁有700條記錄的測試數(shù)據(jù)集作為輸入表,對前面構(gòu)造的挖掘模型進(jìn)行驗證,把“v Member Card”作為可預(yù)測的列名。經(jīng)過處理分析后,得到如圖4的提升圖。

從圖4中的“挖掘圖例”表中可以得到:該決策樹挖掘模型的得分為0.89,分值較高;在樣本總體50%時,理想模型的總體正確率是50%,而本文構(gòu)建的決策樹模型的總體正確率是46.5%。說明這個模型的準(zhǔn)確率比較高,可以為決策支持提供幫助。
因此,飾品企業(yè)可以根據(jù)以上所得的決策樹模型來分析客戶數(shù)據(jù),獲得各類會員的特點,對客戶進(jìn)行分類,實現(xiàn)對客戶價值度、客戶結(jié)構(gòu)等的研究。這樣有助于企業(yè)為不同類型的客戶制定針對性的營銷策略,找到針對性強的銷售分市場,穩(wěn)定并擴大客戶群體。
本文提出了將數(shù)據(jù)挖掘技術(shù)應(yīng)用到飾品營銷中,并以XG公司2005年1月至2007年6月期間的歷史數(shù)據(jù)為例,使用決策樹算法進(jìn)行飾品企業(yè)的客戶分類并對新客戶進(jìn)行預(yù)測,且驗證了所采用的挖掘模型的準(zhǔn)確性,實現(xiàn)對商業(yè)數(shù)據(jù)中隱藏信息的挖掘,從中提煉出對企業(yè)發(fā)展有用的信息,幫助領(lǐng)導(dǎo)正確定位客戶,實施個性化服務(wù),預(yù)測產(chǎn)品客戶群,及時調(diào)整產(chǎn)品營銷策略,為飾品企業(yè)的決策提供了新的思路,具有一定的實用價值。
參考文獻(xiàn)
[1] 周歡.CRM中客戶分類方法的研究與應(yīng)用[J].計算機工程與設(shè)計,2008(3):659-661.
[2] Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機械工業(yè)出版社,2005.
[3] Wallstreet.數(shù)據(jù)挖掘中的基于決策樹的分類方法[DB/OL]. http://gemini-leo.blog.hexun.com/661682_d.html,2005-07-30.
[4] ZhaoHui Tang,Jamie MacLennan.數(shù)據(jù)挖掘原理與應(yīng)用-SQL Server 2005數(shù)據(jù)庫[M].鄺祝芳譯.北京:清華大學(xué)出版社,2007.
