《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 设计应用 > 灰色线性回归模型在元规则挖掘中的应用研究
灰色线性回归模型在元规则挖掘中的应用研究
来源:微型机与应用2011年第1期
曾庆飞,张忠林,刘丛林,梅玲霞
(兰州交通大学 电子与信息工程学院,甘肃 兰州 730070)
摘要: 提出了一种利用灰色线性回归组合模型挖掘关联规则元规则的方法,并通过实例分析证实了方法的有效性。
Abstract:
Key words :

摘  要: 提出了一種利用灰色線性回歸組合模型挖掘關(guān)聯(lián)規(guī)則元規(guī)則的方法,并通過(guò)實(shí)例分析證實(shí)了方法的有效性。
關(guān)鍵詞: 灰色線性回歸;關(guān)聯(lián)規(guī)則;元規(guī)則挖掘

 關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘領(lǐng)域應(yīng)用非常廣泛的挖掘方法,它主要用于發(fā)現(xiàn)事務(wù)數(shù)據(jù)集中項(xiàng)與項(xiàng)之間的關(guān)系,為決策者提供參考?;诮?jīng)典關(guān)聯(lián)規(guī)則的挖掘認(rèn)為規(guī)則是永恒不變的,決策者只能利用這種靜態(tài)規(guī)則信息進(jìn)行分析和決策。實(shí)際上,規(guī)則并不一定永恒有效,例如:以某超市一年的銷售數(shù)據(jù)庫(kù)作為分析對(duì)象,有可能發(fā)現(xiàn)“顧客在購(gòu)買香煙的同時(shí)也會(huì)購(gòu)買禮品”這條規(guī)則,但通過(guò)分析數(shù)據(jù)庫(kù)可知,支持這條規(guī)則的數(shù)據(jù)集大多集中在春節(jié)、圣誕節(jié)和國(guó)慶節(jié)前后,而在其他時(shí)間段規(guī)則支持度很小,并不具有全局指導(dǎo)作用。因此,利用基于靜態(tài)宏觀思想所挖掘出的規(guī)則進(jìn)行決策存在一定的弊端。為了得到更加合理有效的決策信息,研究工作者提出了關(guān)聯(lián)規(guī)則變化的挖掘。Abraham[1]首次提出了元挖掘的思想;榮岡等[2]提出了一種新的描述和評(píng)價(jià)關(guān)聯(lián)規(guī)則的方法,從而為元規(guī)則定量預(yù)測(cè)分析提供了基礎(chǔ)。本文將給出元規(guī)則形式化定義,并在參考文獻(xiàn)[2]提出的支持度向量基礎(chǔ)上利用灰色線性回歸組合模型分析預(yù)測(cè)關(guān)聯(lián)規(guī)則元規(guī)則。

 其中M為D中的事務(wù)數(shù)。
2 灰色線性回歸組合模型建模方法
 元規(guī)則挖掘是針對(duì)單個(gè)規(guī)則的信息進(jìn)行分析和預(yù)測(cè),對(duì)每一條相同的規(guī)則根據(jù)不同的時(shí)間粒度劃分?jǐn)?shù)據(jù)庫(kù)可以建立不同的數(shù)據(jù)序列。針對(duì)超市銷售數(shù)據(jù)庫(kù)、電信客戶數(shù)據(jù)庫(kù)等,以小時(shí)間粒度劃分?jǐn)?shù)據(jù)庫(kù)進(jìn)行分析的意義不是很大,一般按照年、月、周進(jìn)行數(shù)據(jù)劃分,因此數(shù)據(jù)建模序列通常并不是十分復(fù)雜,適合用灰色理論進(jìn)行研究。目前提出建立元規(guī)則的方法主要有基于概率統(tǒng)計(jì)的方法[3]和基于模糊決策樹的方法[4]。基于概率的方法主要采用主成份分析、回歸分析等對(duì)規(guī)則的支持度進(jìn)行曲線擬合,這在處理不確定數(shù)據(jù)上效果欠佳;而基于模糊決策樹的方法由于需要較多的專家信息,明顯無(wú)法滿足要求。對(duì)于具備線性和指數(shù)趨勢(shì)的小樣本序列,灰色線性回歸組合模型是一種很好的數(shù)據(jù)預(yù)測(cè)模型,其建模過(guò)程如下[6]:


3 實(shí)例分析
 本文以某通信公司2008年的客戶數(shù)據(jù)庫(kù)的業(yè)務(wù)記錄為原始基礎(chǔ)數(shù)據(jù),按照月份將數(shù)據(jù)集劃分為12個(gè)子數(shù)據(jù)集,并利用參考文獻(xiàn)[2]提出的關(guān)聯(lián)規(guī)則挖掘算法挖掘得到頻繁項(xiàng)目集。分析由頻繁2項(xiàng)集生成的一條關(guān)聯(lián)規(guī)則“固定電話業(yè)務(wù)=>163撥號(hào)業(yè)務(wù)”(即客戶在辦理固定電話業(yè)務(wù)的前提下同時(shí)辦理163撥號(hào)業(yè)務(wù))的規(guī)則變化情況。該規(guī)則每月的支持度計(jì)數(shù)構(gòu)成規(guī)則支持度向量SV=[72,85,90,103,117,126,155,168,193,224,265,308],選取規(guī)則前十個(gè)月的支持度數(shù)據(jù)作為建模原始數(shù)據(jù),將11月和12月的數(shù)據(jù)作為模型有效性檢驗(yàn)數(shù)據(jù)。下面分別用灰色線性回歸組合模型[5]和線性回歸模型[6]進(jìn)行預(yù)測(cè)分析。
3.1 線性回歸模型
 (1)當(dāng)對(duì)事務(wù)數(shù)據(jù)庫(kù)引入時(shí)間因素后,規(guī)則支持度計(jì)數(shù)和時(shí)間就存在了密切關(guān)系,設(shè)規(guī)則支持度計(jì)數(shù)為因變量Yi,月份為自變量Xi,根據(jù)前十個(gè)月統(tǒng)計(jì)資料做散點(diǎn)圖如圖1所示。


3.3模型擬合及預(yù)測(cè)結(jié)果比較
 依據(jù)上面所述線性回歸模型和灰色線性回歸模型求解步驟,分別計(jì)算兩種模型的預(yù)測(cè)值,如表1所示(預(yù)測(cè)值均取整數(shù))。利用相對(duì)誤差法檢驗(yàn)兩種模型均滿足精度要求,可以用于進(jìn)一步預(yù)測(cè)。由表1可知線性回歸模型擬合結(jié)果平均相對(duì)誤差和預(yù)測(cè)結(jié)果平均相對(duì)誤差分別為6.96%、19.16%,灰色線性回歸模型擬合和預(yù)測(cè)的相對(duì)誤差分別為1.37%、1.24%,灰色線性回歸擬合和預(yù)測(cè)精度均明顯優(yōu)于線性回歸模型。

 圖2通過(guò)圖示進(jìn)一步直觀地對(duì)兩種預(yù)測(cè)模型進(jìn)行比較可知,灰色線性回歸模型的預(yù)測(cè)值與實(shí)際值相比,波動(dòng)范圍較小,圖形更吻合,預(yù)測(cè)精度更好?;疑€性回歸模型在動(dòng)態(tài)關(guān)聯(lián)規(guī)則元規(guī)則挖掘上具有良好的有效性,可以應(yīng)用于實(shí)際分析中。由組合模型預(yù)測(cè)結(jié)果可知,此規(guī)則的有效性隨著時(shí)間推移在不斷地增強(qiáng),在后續(xù)的時(shí)間中應(yīng)該有很好的適用性,決策者可以對(duì)辦理固定電話業(yè)務(wù)的客戶推薦163撥號(hào)業(yè)務(wù)。

 本文提出了一種灰色線性回歸組合模型的關(guān)聯(lián)規(guī)則元規(guī)則挖掘方法,彌補(bǔ)了靜態(tài)關(guān)聯(lián)規(guī)則無(wú)法提供規(guī)則自身變化的不足,并能夠?qū)﹃P(guān)聯(lián)規(guī)則元規(guī)則變化的假定和判斷基于時(shí)序數(shù)據(jù)的定量分析和研究。通過(guò)挖掘通信公司客戶數(shù)據(jù)庫(kù)業(yè)務(wù)數(shù)據(jù),并利用不同的預(yù)測(cè)模型對(duì)規(guī)則支持度預(yù)測(cè)結(jié)果比較分析表明:灰色線性回歸組合模型對(duì)具有線性和指數(shù)趨勢(shì)的規(guī)則時(shí)間序列的擬合及預(yù)測(cè)精度均優(yōu)于線性回歸模型,從而可以更加準(zhǔn)確地反映規(guī)則的變化趨勢(shì),判斷規(guī)則的有效性,使決策者正確把握規(guī)則在實(shí)際中的應(yīng)用前景。
參考文獻(xiàn)
[1] ABRAHAM T, RODDICK J F. Incremental meta-mining from large temporal data sets. Advances in Database Technologies, Proceedings of the 1st International Workshop on DataWarehousing and Data Mining(DWDM′98), 1999:41-54.
[2] 榮岡,劉進(jìn)鋒,顧海杰.數(shù)據(jù)庫(kù)中動(dòng)態(tài)關(guān)聯(lián)規(guī)則的挖掘[J].控制理論與應(yīng)用,2007,24(1):127-131.
[3] Liu Bing, Ma Yiming, Lee R. Analyzing the interestingness of association rules from the temporal dimension[J]. IEEE International Conference on Data Mining (ICDM-2001), Silicon Valley, CA, 2001.
[4] Wai-Ho Au, Keith C. C. Chan. Mining changes in association rules: a fuzzy approach[J]. Fuzzy sets and systems, 2005,149(1): 87-104.
[5] 劉思峰,黨耀國(guó),方志耕,等.灰色系統(tǒng)理論及其應(yīng)用[M].北京:科學(xué)出版社,2004:125-138.
[6] 王松桂.線性回歸與方差分析[M].北京:高等教育出版社,1999.
 

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。