《電子技術(shù)應用》
您所在的位置:首頁 > 其他 > 设计应用 > 灰色线性回归模型在元规则挖掘中的应用研究
灰色线性回归模型在元规则挖掘中的应用研究
来源:微型机与应用2011年第1期
曾庆飞,张忠林,刘丛林,梅玲霞
(兰州交通大学 电子与信息工程学院,甘肃 兰州 730070)
摘要: 提出了一种利用灰色线性回归组合模型挖掘关联规则元规则的方法,并通过实例分析证实了方法的有效性。
Abstract:
Key words :

摘  要: 提出了一種利用灰色線性回歸組合模型挖掘關(guān)聯(lián)規(guī)則元規(guī)則的方法,并通過實例分析證實了方法的有效性。
關(guān)鍵詞: 灰色線性回歸;關(guān)聯(lián)規(guī)則;元規(guī)則挖掘

 關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘領(lǐng)域應用非常廣泛的挖掘方法,它主要用于發(fā)現(xiàn)事務數(shù)據(jù)集中項與項之間的關(guān)系,為決策者提供參考?;诮?jīng)典關(guān)聯(lián)規(guī)則的挖掘認為規(guī)則是永恒不變的,決策者只能利用這種靜態(tài)規(guī)則信息進行分析和決策。實際上,規(guī)則并不一定永恒有效,例如:以某超市一年的銷售數(shù)據(jù)庫作為分析對象,有可能發(fā)現(xiàn)“顧客在購買香煙的同時也會購買禮品”這條規(guī)則,但通過分析數(shù)據(jù)庫可知,支持這條規(guī)則的數(shù)據(jù)集大多集中在春節(jié)、圣誕節(jié)和國慶節(jié)前后,而在其他時間段規(guī)則支持度很小,并不具有全局指導作用。因此,利用基于靜態(tài)宏觀思想所挖掘出的規(guī)則進行決策存在一定的弊端。為了得到更加合理有效的決策信息,研究工作者提出了關(guān)聯(lián)規(guī)則變化的挖掘。Abraham[1]首次提出了元挖掘的思想;榮岡等[2]提出了一種新的描述和評價關(guān)聯(lián)規(guī)則的方法,從而為元規(guī)則定量預測分析提供了基礎。本文將給出元規(guī)則形式化定義,并在參考文獻[2]提出的支持度向量基礎上利用灰色線性回歸組合模型分析預測關(guān)聯(lián)規(guī)則元規(guī)則。

 其中M為D中的事務數(shù)。
2 灰色線性回歸組合模型建模方法
 元規(guī)則挖掘是針對單個規(guī)則的信息進行分析和預測,對每一條相同的規(guī)則根據(jù)不同的時間粒度劃分數(shù)據(jù)庫可以建立不同的數(shù)據(jù)序列。針對超市銷售數(shù)據(jù)庫、電信客戶數(shù)據(jù)庫等,以小時間粒度劃分數(shù)據(jù)庫進行分析的意義不是很大,一般按照年、月、周進行數(shù)據(jù)劃分,因此數(shù)據(jù)建模序列通常并不是十分復雜,適合用灰色理論進行研究。目前提出建立元規(guī)則的方法主要有基于概率統(tǒng)計的方法[3]和基于模糊決策樹的方法[4]?;诟怕实姆椒ㄖ饕捎弥鞒煞莘治觥⒒貧w分析等對規(guī)則的支持度進行曲線擬合,這在處理不確定數(shù)據(jù)上效果欠佳;而基于模糊決策樹的方法由于需要較多的專家信息,明顯無法滿足要求。對于具備線性和指數(shù)趨勢的小樣本序列,灰色線性回歸組合模型是一種很好的數(shù)據(jù)預測模型,其建模過程如下[6]:


3 實例分析
 本文以某通信公司2008年的客戶數(shù)據(jù)庫的業(yè)務記錄為原始基礎數(shù)據(jù),按照月份將數(shù)據(jù)集劃分為12個子數(shù)據(jù)集,并利用參考文獻[2]提出的關(guān)聯(lián)規(guī)則挖掘算法挖掘得到頻繁項目集。分析由頻繁2項集生成的一條關(guān)聯(lián)規(guī)則“固定電話業(yè)務=>163撥號業(yè)務”(即客戶在辦理固定電話業(yè)務的前提下同時辦理163撥號業(yè)務)的規(guī)則變化情況。該規(guī)則每月的支持度計數(shù)構(gòu)成規(guī)則支持度向量SV=[72,85,90,103,117,126,155,168,193,224,265,308],選取規(guī)則前十個月的支持度數(shù)據(jù)作為建模原始數(shù)據(jù),將11月和12月的數(shù)據(jù)作為模型有效性檢驗數(shù)據(jù)。下面分別用灰色線性回歸組合模型[5]和線性回歸模型[6]進行預測分析。
3.1 線性回歸模型
 (1)當對事務數(shù)據(jù)庫引入時間因素后,規(guī)則支持度計數(shù)和時間就存在了密切關(guān)系,設規(guī)則支持度計數(shù)為因變量Yi,月份為自變量Xi,根據(jù)前十個月統(tǒng)計資料做散點圖如圖1所示。


3.3模型擬合及預測結(jié)果比較
 依據(jù)上面所述線性回歸模型和灰色線性回歸模型求解步驟,分別計算兩種模型的預測值,如表1所示(預測值均取整數(shù))。利用相對誤差法檢驗兩種模型均滿足精度要求,可以用于進一步預測。由表1可知線性回歸模型擬合結(jié)果平均相對誤差和預測結(jié)果平均相對誤差分別為6.96%、19.16%,灰色線性回歸模型擬合和預測的相對誤差分別為1.37%、1.24%,灰色線性回歸擬合和預測精度均明顯優(yōu)于線性回歸模型。

 圖2通過圖示進一步直觀地對兩種預測模型進行比較可知,灰色線性回歸模型的預測值與實際值相比,波動范圍較小,圖形更吻合,預測精度更好?;疑€性回歸模型在動態(tài)關(guān)聯(lián)規(guī)則元規(guī)則挖掘上具有良好的有效性,可以應用于實際分析中。由組合模型預測結(jié)果可知,此規(guī)則的有效性隨著時間推移在不斷地增強,在后續(xù)的時間中應該有很好的適用性,決策者可以對辦理固定電話業(yè)務的客戶推薦163撥號業(yè)務。

 本文提出了一種灰色線性回歸組合模型的關(guān)聯(lián)規(guī)則元規(guī)則挖掘方法,彌補了靜態(tài)關(guān)聯(lián)規(guī)則無法提供規(guī)則自身變化的不足,并能夠?qū)﹃P(guān)聯(lián)規(guī)則元規(guī)則變化的假定和判斷基于時序數(shù)據(jù)的定量分析和研究。通過挖掘通信公司客戶數(shù)據(jù)庫業(yè)務數(shù)據(jù),并利用不同的預測模型對規(guī)則支持度預測結(jié)果比較分析表明:灰色線性回歸組合模型對具有線性和指數(shù)趨勢的規(guī)則時間序列的擬合及預測精度均優(yōu)于線性回歸模型,從而可以更加準確地反映規(guī)則的變化趨勢,判斷規(guī)則的有效性,使決策者正確把握規(guī)則在實際中的應用前景。
參考文獻
[1] ABRAHAM T, RODDICK J F. Incremental meta-mining from large temporal data sets. Advances in Database Technologies, Proceedings of the 1st International Workshop on DataWarehousing and Data Mining(DWDM′98), 1999:41-54.
[2] 榮岡,劉進鋒,顧海杰.數(shù)據(jù)庫中動態(tài)關(guān)聯(lián)規(guī)則的挖掘[J].控制理論與應用,2007,24(1):127-131.
[3] Liu Bing, Ma Yiming, Lee R. Analyzing the interestingness of association rules from the temporal dimension[J]. IEEE International Conference on Data Mining (ICDM-2001), Silicon Valley, CA, 2001.
[4] Wai-Ho Au, Keith C. C. Chan. Mining changes in association rules: a fuzzy approach[J]. Fuzzy sets and systems, 2005,149(1): 87-104.
[5] 劉思峰,黨耀國,方志耕,等.灰色系統(tǒng)理論及其應用[M].北京:科學出版社,2004:125-138.
[6] 王松桂.線性回歸與方差分析[M].北京:高等教育出版社,1999.
 

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容