《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 设计应用 > 一种基于特征值的数据仓库主题搜索方法
一种基于特征值的数据仓库主题搜索方法
周雄志 段成华
北京中国科学院研究生院信息科学与工程学院(100039)
摘要: 在分析数据仓库主题特征的基础上提出了一种搜索方法,能够从关系数据库中自动搜索最具有数据仓库主题特征的表。这种方法可以用于在数据仓库设计中辅助确定主题。
關(guān)鍵詞: 数据仓库 主题 关系数据库
Abstract:
Key words :

摘   要: 在分析數(shù)據(jù)倉庫主題特征的基礎(chǔ)上提出了一種搜索方法,能夠從關(guān)系數(shù)據(jù)庫中自動搜索最具有數(shù)據(jù)倉庫主題特征的表。這種方法可以用于在數(shù)據(jù)倉庫設(shè)計中輔助確定主題。
關(guān)鍵詞: 數(shù)據(jù)倉庫  主題  關(guān)系數(shù)據(jù)庫

  隨著計算機技術(shù)的發(fā)展,信息系統(tǒng)在企業(yè)中得到了廣泛的應(yīng)用。市場競爭使得企業(yè)對信息化提出了新的需求,即要求以操作數(shù)據(jù)庫為基礎(chǔ),建立數(shù)據(jù)倉庫(DW),對積累的海量數(shù)據(jù)進行整理、匯總、挖掘,為企業(yè)提供決策支持。相應(yīng)地,數(shù)據(jù)倉庫理論與應(yīng)用方面的研究也就成為了學術(shù)上的研究熱點。在目前的數(shù)據(jù)倉庫設(shè)計中,一般都是通過需求分析來確定主題。而這種方法是主觀的,它依賴于設(shè)計者的經(jīng)驗和需求分析的準確性,缺乏客觀的評估標準和可信度。本文根據(jù)數(shù)據(jù)倉庫主題的特征屬性,提出了一種搜索方法。此方法能夠自動地從關(guān)系數(shù)據(jù)庫中尋找具有這種數(shù)據(jù)倉庫主題特征的表,為數(shù)據(jù)倉庫設(shè)計的主題選擇提供輔助參考。
1  相關(guān)概念
  數(shù)據(jù)倉庫的主題即中心事實表,表現(xiàn)為多維數(shù)據(jù)模型,與關(guān)系數(shù)據(jù)庫中的表存在一定的耦合關(guān)系。通過數(shù)據(jù)倉庫主題特征的分析可知,關(guān)系數(shù)據(jù)庫中某些表與數(shù)據(jù)倉庫的中心事實表具有一定程度的相似性,被稱為具有一定程度的數(shù)據(jù)倉庫主題特征,它們可以作為數(shù)據(jù)倉庫中心事實表的原型。這些表具有這樣的特征;有較多的外鍵和視圖數(shù);通常都直接或者間接包含有數(shù)值類型和時間類型的屬性字段;有比較大的元組數(shù)。這樣的表在業(yè)務(wù)操作系統(tǒng)的關(guān)系數(shù)據(jù)庫中是最核心的基礎(chǔ)信息表,記錄了各種詳細的操作數(shù)據(jù),是各種統(tǒng)計分析的數(shù)據(jù)來源,最適合作為確定數(shù)據(jù)倉庫主題的參考對象。下面對關(guān)系數(shù)據(jù)庫中表的數(shù)據(jù)倉庫主題特征以及主題選擇法則進行定義。
  為了便于說明,以集合的形式進行描述。給定一個關(guān)系數(shù)據(jù)庫Ω={R1,R2,……,Rn},Ri為數(shù)據(jù)庫中的關(guān)系表,n為數(shù)據(jù)庫中關(guān)系表的個數(shù)。對于每個表Ri,其元組集合為Ti,Ri的字段(屬性)集合為Ai={a1,a2,……,ap},Ri上的外鍵集合為Fi={f1,f2,……,fq},Ri上的視圖集合為Vi={v1,v2,……,vk}。
  定義1(外鍵特征值f):若數(shù)據(jù)庫Ω中表Ri的外鍵數(shù)為S(Fi),所有的表外鍵數(shù)中最大值為S(F)max,則表Ri的外鍵特征值fi=S(Fi)/S(F)max
  數(shù)據(jù)倉庫中事實表和維表的關(guān)聯(lián)程度體現(xiàn)了數(shù)據(jù)的粒度特征,外鍵特征值表征了關(guān)系數(shù)據(jù)庫中表的粒度特征。
  定義2(數(shù)值特征值n):對數(shù)據(jù)庫Ω中表Ri的字段屬性集合Ai={a1,a2,……,ap},如果存在有am∈Ai,并且am為數(shù)值類型,則表Ri的數(shù)值特征值ni=1,否則ni=0。
  數(shù)據(jù)倉庫的事實表是用數(shù)值來度量的,所以具有數(shù)值字段的表更有可能成為數(shù)據(jù)倉庫的事實表。
  定義3(時間特征值d):對數(shù)據(jù)庫Ω中表Ri的字段屬性集合Ai={a1,a2,……,ap},如果存在有an∈Ai并且an為日期類型,則表Ri的時間特征值di=1,否則di=0。
  數(shù)據(jù)倉庫事實表中的數(shù)據(jù)具有顯式的或者隱式的時間屬性。因此在選擇數(shù)據(jù)倉庫中心事實表時,應(yīng)考慮表中是否具有或者隱含了時間類型的字段。
  定義4(視圖特征值v):數(shù)據(jù)庫Ω中表Ri上的視圖集合為Vi={v1,v2,……,vk},視圖數(shù)為S(Vi),數(shù)據(jù)庫中所有的表視圖數(shù)中最大值為S(V)max,則表Ri的視圖特征值vi=S(Vi)/S(V)max。
  在源數(shù)據(jù)庫中,一個數(shù)值字段多次被用來建立視圖或進行Group By計算,說明它的利用率很高而且是經(jīng)常被匯總查詢的數(shù)據(jù)量,這符合數(shù)據(jù)倉庫中對主題數(shù)據(jù)的需求。
  定義5(元組特征值):數(shù)據(jù)庫Ω中表Ri中的元組數(shù)為S(Ti),所有元組數(shù)中最大值為S(T)max,則表Ri的元組特征值ti=S(Ti)/S(T)max。
  所謂元組數(shù),也就是表中記錄行數(shù)。通常,一個沒有記錄或者記錄很少的表的利用率是很低的。而數(shù)據(jù)倉庫中的主題是用來輔助決策的,需要大量的數(shù)據(jù),所以該特征值用來表征事實表中存儲的數(shù)據(jù)量。
定義6(主題特征值Md):上述五個定義給出了數(shù)據(jù)庫Ω中表Ri的主題相關(guān)屬性值,其中外鍵特征值、數(shù)值特征值、時間特征值和視圖特征值都是靜態(tài)的,元組特征值是動態(tài)的。取靜態(tài)特征值的平均數(shù)與動態(tài)特征值的乘積作為表的主題特征值,定義表Ri的主題特征向量為Md=t*(f+n+d+v)/4。
  有關(guān)數(shù)據(jù)倉庫主題特征更詳細的討論,請參見文獻[3]。
2  搜索算法
  對于數(shù)據(jù)庫Ω中的所有表,以它們的主題特征值Md作為度量的標準。Md越大的表,越具有數(shù)據(jù)倉庫的主題特征,越適合作為建立數(shù)據(jù)倉庫的中心事實表。由此設(shè)計出一種算法,能夠自動地對關(guān)系數(shù)據(jù)庫中的所有表進行遍歷搜索,找出數(shù)據(jù)庫中最具有數(shù)據(jù)倉庫主題特征的表。
  此算法的步驟如下:
  (1)首先進行初始化,配置有關(guān)數(shù)據(jù)庫信息,定義算法中使用的數(shù)據(jù)結(jié)構(gòu)。
  (2)對數(shù)據(jù)庫中的表進行遍歷,計算各個表的特征值對應(yīng)的統(tǒng)計數(shù):外鍵數(shù)、數(shù)值字段數(shù)、時間字段數(shù)、視圖數(shù)和元組數(shù),把表的名稱和五個特征值對應(yīng)的統(tǒng)計數(shù)賦值給步驟(1)所創(chuàng)建的數(shù)據(jù)結(jié)構(gòu)。
  (3)計算并找出各項表統(tǒng)計數(shù)中的最大值,作為計算歸一化特征值的參考值。
  (4)對步驟(2)中保存了表的各項統(tǒng)計數(shù)的數(shù)據(jù)結(jié)構(gòu)進行遍歷,對各個表的各項統(tǒng)計數(shù)進行歸一化計算得到其主題相關(guān)特征值,并計算各表的主題特征值Md。
  (5)按照Md的值,從大到小地輸出結(jié)果集。Md越大的表越具有數(shù)據(jù)倉庫主題特征,越適合作為數(shù)據(jù)倉庫事實表的備選項。
  在數(shù)據(jù)庫管理系統(tǒng)(DBMS)中,數(shù)據(jù)庫對象的信息都保存在系統(tǒng)表或者用戶表中,因此可以通過編寫程序?qū)崿F(xiàn)本文提出的搜索算法。在MS SQL Server 2000中用存儲過程實現(xiàn)該搜索算法的代碼如下:
 

3  應(yīng)用實例
  運用此算法對山東青島某中型集裝箱國際貨運公司的業(yè)務(wù)數(shù)據(jù)庫進行了搜索。該數(shù)據(jù)庫中積累了二年的業(yè)務(wù)數(shù)據(jù),經(jīng)過搜索得到按照Md從大到小排列的前十個輸出結(jié)果如表1所示。

  對上面十個表進行簡單分析:序號1為集裝箱動態(tài)表,記錄了每個集裝箱的動態(tài)信息;序號2、3為業(yè)務(wù)費用相關(guān)表,記錄船務(wù)系統(tǒng)所有業(yè)務(wù)產(chǎn)生的收支費用信息;序號4、5、6、7、8、9、10為進出口業(yè)務(wù)單證相關(guān)表,記錄船務(wù)系統(tǒng)的定艙、裝箱、貨物、貨主等詳細信息。集裝箱動態(tài)、業(yè)務(wù)費用和業(yè)務(wù)單證是集裝箱海運系統(tǒng)最主要的業(yè)務(wù)數(shù)據(jù),是海運物流決策支持系統(tǒng)的核心分析數(shù)據(jù),最適合作為集裝箱海運數(shù)據(jù)倉庫的中心主題,這與通過需求分析得到的結(jié)果是基本一致的。
4  結(jié)束語
  利用主題特征搜索數(shù)據(jù)倉庫的主題對于數(shù)據(jù)倉庫的設(shè)計有著實際意義。一方面可以將搜索的結(jié)果與通過需求分析確定的數(shù)據(jù)倉庫主題進行參照對比,判斷需求分析和設(shè)計的客觀性;另一方面,可以對未知的關(guān)系數(shù)據(jù)庫進行快速分析,找出最具有數(shù)據(jù)倉庫主題特征的表,輔助數(shù)據(jù)倉庫設(shè)計人員確定主題事實表。但是,目前對數(shù)據(jù)倉庫主題特征的研究還不是很徹底,對主題特征相關(guān)特征值之間的比例關(guān)系基本上是平均考慮。如何設(shè)定各特征值的權(quán)重,使搜索結(jié)果更理想,是需要進一步深入研究的問題。
參考文獻
1   Theodoratos D,Sellis T.Designing data warehouses.Data &  Knowledge Engineering.1999;(31)
2   orger J L,Vossen G.Multidimensional normal forms for data warehouse design.Information Systems.2002;27
3   劉娟,段成華.評估數(shù)據(jù)倉庫主題興趣度的Md距離測度方法.計算機應(yīng)用與軟件.2003;(20)
4   Inmon W H.數(shù)據(jù)倉庫(第二版).北京:機械工業(yè)出版社,2000

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容