《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信与网络 > 设计应用 > 数据仓库在大型超市中的应用
数据仓库在大型超市中的应用
吕维先 陈红艺 帅 赟
中国地质大学(武汉)信息工程学院(430074)
摘要: 给出了数据仓库的概念和特征。结合大型超市的实际情况,描述了数据仓库的构建过程及需要注意的问题。
Abstract:
Key words :

摘  要: 給出了數(shù)據(jù)倉庫的概念和特征。結(jié)合大型超市的實(shí)際情況,描述了數(shù)據(jù)倉庫的構(gòu)建過程及需要注意的問題。
關(guān)鍵詞: 數(shù)據(jù)倉庫  決策支持  數(shù)據(jù)挖掘  超級市場

  現(xiàn)代社會的發(fā)展在某種意義上取決于信息的獲取與處理技術(shù)。信息的價(jià)值在于用戶通過使用這些信息從中得到收益。信息工作者所面對的問題不是簡單地處理數(shù)據(jù),而是如何使用數(shù)據(jù),即從數(shù)據(jù)中挖掘出有用的信息。就超市而言,各種商品的銷售情況實(shí)際上蘊(yùn)藏著某種規(guī)律性。如果能夠把它挖掘出來,無疑對今后的工作有很大的幫助。
1  數(shù)據(jù)倉庫的概念和特征
  數(shù)據(jù)倉庫指的是在關(guān)系數(shù)據(jù)庫中存儲數(shù)據(jù)和處理數(shù)據(jù),并且使得數(shù)據(jù)更加有力地支持決策分析。其目標(biāo)是通過收集、過濾和存儲數(shù)據(jù),尋找數(shù)據(jù)的趨勢,幫助企業(yè)制定有關(guān)經(jīng)營方面的決策。
  這里給數(shù)據(jù)倉庫一個(gè)比較完整的定義:數(shù)據(jù)倉庫是面向主題的、一致的、不同時(shí)間的、穩(wěn)定的數(shù)據(jù)集合,用于支持經(jīng)營管理中的決策支持過程。也就是說,數(shù)據(jù)倉庫是一個(gè)處理過程,該過程從歷史的角度組織和存儲數(shù)據(jù),并能集成地進(jìn)行數(shù)據(jù)分析。數(shù)據(jù)倉庫有以下四個(gè)特征。
  (1)數(shù)據(jù)倉庫是面向主題的。傳統(tǒng)的數(shù)據(jù)倉庫是面向應(yīng)用設(shè)計(jì)的,而主題是在一個(gè)較高層次將數(shù)據(jù)歸類的標(biāo)準(zhǔn)。例如,在一個(gè)大型超市里,如果只記錄原始的銷售數(shù)據(jù),則使用原始的數(shù)據(jù)庫技術(shù)即可。但是如果希望對這些數(shù)據(jù)加以分析,找出哪些年齡段的人喜歡某類產(chǎn)品,什么時(shí)間段某類產(chǎn)品銷量最好以及產(chǎn)品與銷量的關(guān)系,則需要借助于數(shù)據(jù)倉庫技術(shù)。
  (2)數(shù)據(jù)倉庫是一致的數(shù)據(jù)的集合。應(yīng)用程序常常以不同的格式使用類似的數(shù)據(jù)。例如:超級市場可能表示為“超市”、“超級市場”、“supper market”等。這些數(shù)據(jù)的值必須統(tǒng)一才能更好地使用。
  (3)存儲在OLTP系統(tǒng)中的數(shù)據(jù)可以正確地表示任何時(shí)間的任何值。它一般表示過了一段比較長的時(shí)間的數(shù)據(jù),通常是5~10年。這些數(shù)據(jù)一般是不改變的。而數(shù)據(jù)庫通常只把有用的數(shù)據(jù)保存30~90天。
  (4)數(shù)據(jù)倉庫是比較穩(wěn)定的。當(dāng)數(shù)據(jù)移動到數(shù)據(jù)倉庫后,就不再改變,除非存儲的數(shù)據(jù)不正確。一般情況下,在數(shù)據(jù)倉庫中發(fā)生的操作是建立數(shù)據(jù)倉庫時(shí)的加載數(shù)據(jù)和查詢數(shù)據(jù)。
2  建立數(shù)據(jù)倉庫的過程
  建立數(shù)據(jù)倉庫的過程實(shí)際上是從傳統(tǒng)的以數(shù)據(jù)庫為中心的操作型系統(tǒng)結(jié)構(gòu)轉(zhuǎn)移到以數(shù)據(jù)倉庫為中心的體系結(jié)構(gòu)的過程。具體實(shí)現(xiàn)過程如下。
  (1)建立企業(yè)模型,并且選取主題。企業(yè)模型是從企業(yè)用戶的角度對企業(yè)所需數(shù)據(jù)的內(nèi)容以及數(shù)據(jù)間關(guān)系的抽象。企業(yè)模型對大型企業(yè)是有重要意義的。有了企業(yè)模型,可以比較完整地了解企業(yè)中各方面、各階層人員對數(shù)據(jù)的需要程度。這對建立數(shù)據(jù)倉庫有很好的指導(dǎo)作用。圖1為大型超市企業(yè)模型。

  企業(yè)模型建立后,可以根據(jù)企業(yè)模型和用戶需求確定系統(tǒng)中存在的主題。大型數(shù)據(jù)倉庫涉及的系統(tǒng)眾多、功能復(fù)雜,因此往往采取螺旋式的開發(fā)方式。將龐大的目標(biāo)劃分成若干個(gè)實(shí)施階段,實(shí)際上是將一個(gè)復(fù)雜、困難的問題轉(zhuǎn)化為多個(gè)比較簡單明確的小問題,然后分而治之。主題選取的原則包括:優(yōu)先實(shí)施企業(yè)管理者最關(guān)心的問題,優(yōu)先選擇在短時(shí)間內(nèi)能見效的決策,優(yōu)先實(shí)施投資風(fēng)險(xiǎn)低的決策。例如,管理者關(guān)心的是某一時(shí)期的銷售額、利潤額、市場份額等。
  (2)選擇數(shù)據(jù)顆粒度。對于不同的數(shù)據(jù)量,將選擇不同的數(shù)據(jù)顆粒度策略。小數(shù)據(jù)量可以采用單一的數(shù)據(jù)粒度,即直接存儲細(xì)節(jié)數(shù)據(jù)并定期在細(xì)節(jié)數(shù)據(jù)基礎(chǔ)上進(jìn)行數(shù)據(jù)綜合。而大數(shù)據(jù)量需要采用雙重粒度,數(shù)據(jù)倉庫只保留在細(xì)節(jié)數(shù)據(jù)保留周期之內(nèi)的數(shù)據(jù),對于該周期之后的信息只保留其綜合信息。就超市而言,可以保存最近一個(gè)月中每天的營業(yè)額數(shù)據(jù)。對于更早時(shí)間段內(nèi)的營業(yè)額數(shù)據(jù),可以只保存周營業(yè)額之和,或者月營業(yè)額之和。典型的粒度定義包括:顧客的購物券上掃描設(shè)備一次拾取的分列項(xiàng)內(nèi)容,倉庫中每種產(chǎn)品庫存水平的日快照,每個(gè)銀行帳號的月快照。
  (3)表的分割與劃分。通常按照時(shí)間進(jìn)行分割。細(xì)節(jié)數(shù)據(jù)時(shí)間短,而綜合數(shù)據(jù)的時(shí)間稍長。分割表之后要為各個(gè)表增加合適的時(shí)間字段,同時(shí)去掉分析過程中不會用到的字段。在實(shí)際應(yīng)用中,字段被訪問的頻率有差別。將所有的字段放在一起會影響訪問的效率。所以有必要對表中的內(nèi)容進(jìn)行合理的劃分。通常按照數(shù)據(jù)穩(wěn)定性進(jìn)行劃分,這樣就避免了整張表的記錄數(shù)迅速增長的現(xiàn)象,節(jié)約了存儲空間。
  (4)數(shù)據(jù)抽取和數(shù)據(jù)加載。將數(shù)據(jù)資源從外部抽取到數(shù)據(jù)倉庫中,在此過程中應(yīng)該依據(jù)元數(shù)據(jù)中定義的標(biāo)準(zhǔn)數(shù)據(jù)格式處理數(shù)據(jù)。在數(shù)據(jù)被抽取后,對準(zhǔn)備進(jìn)行加載的數(shù)據(jù)進(jìn)行清理,然后就可以把它們加載到數(shù)據(jù)倉庫中。
  (5)OLAP模型設(shè)計(jì)。OLAP是針對某個(gè)特定的主題進(jìn)行的聯(lián)機(jī)數(shù)據(jù)訪問、處理和分析,通過直觀的方式從多個(gè)維度、多種數(shù)據(jù)綜合程度將系統(tǒng)的運(yùn)營情況展現(xiàn)給使用者。OLAP模型設(shè)計(jì)包括維表設(shè)計(jì)和事實(shí)表設(shè)計(jì)。維表通過記錄因素的屬性描述事件中包含的諸多因素,例如,員工維表中通過員工標(biāo)識號、姓名、電話、年齡、地址等信息用來刻畫員工的屬性。維表屬性有星型模型和雪花型模型二種類型。通常,星型模型用來處理一對一和一對多關(guān)系,雪花型模型用來處理多對多關(guān)系。雪花型模型用中間表連接事實(shí)表和維表,使事實(shí)表不至于迅速膨脹。在設(shè)計(jì)事實(shí)表時(shí)要著重考慮數(shù)據(jù)的粒度。如果決策者不斷向下觀察細(xì)節(jié)數(shù)據(jù),則事實(shí)表會記錄很多的細(xì)節(jié),其長度會增大。反之其長度會減小。圖2為銷售主題的星型模型和雪花模型。

  (6)數(shù)據(jù)挖掘模型設(shè)計(jì)。在進(jìn)行數(shù)據(jù)挖掘的時(shí)候,將數(shù)據(jù)寬表劃分成訓(xùn)練集合和驗(yàn)證集合。在沒有挖掘模型時(shí)可以使用訓(xùn)練集合對數(shù)據(jù)進(jìn)行訓(xùn)練,逐漸確定模型中的參數(shù)。在模型建立后,利用驗(yàn)證集合對模型進(jìn)行評價(jià)。
  在模型確定后,需要將進(jìn)行預(yù)測的數(shù)據(jù)輸入挖掘引擎,挖掘引擎將利用模型得到預(yù)測結(jié)果。數(shù)據(jù)挖掘的部分預(yù)測結(jié)果輸入到OLAP子系統(tǒng)中,另一些結(jié)果輸入界面子系統(tǒng),以便將數(shù)據(jù)挖掘的結(jié)果呈現(xiàn)給最終用戶。
  (7)同客戶交流。以上工作完成以后,需要同用戶進(jìn)行深入的交流,使用戶對以上系統(tǒng)有更加深入的認(rèn)識,獲取用戶的想法,以便于下一步工作的開展。
  (8)重新開始循環(huán)。重新進(jìn)入以上循環(huán),直到取得滿意的結(jié)果。
3  結(jié)束語
  大型超市每天都要進(jìn)行成千上萬筆交易。對這些交易進(jìn)行分析,找出它們之間的關(guān)聯(lián)關(guān)系,有利于超市管理層進(jìn)行正確決策,及時(shí)調(diào)整經(jīng)營策略,更好地適應(yīng)市場的挑戰(zhàn)。
參考文獻(xiàn)
1   Agosta L著,瀟湘工作室譯.數(shù)據(jù)倉庫技術(shù)指南.北京:人民 郵電出版社,2000
2   謝榕.基于數(shù)據(jù)倉庫的決策支持系統(tǒng)框架.系統(tǒng)工程理論與實(shí)踐,2000;(4)
3   高洪深.決策支持系統(tǒng)(DSS).北京:清華大學(xué)出版社,2000
4   林宇.數(shù)據(jù)倉庫原理與實(shí)踐.北京:人民郵電出版社,2003
5   Han J,Kamber M著,范明,孟小峰譯.數(shù)據(jù)挖掘:概念與技術(shù).北京:機(jī)械工業(yè)出版社,2001
 

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容