摘 要: 針對(duì)醫(yī)院信息管理系統(tǒng)(HIS)對(duì)輔助決策支持不足,提出以HIS為基礎(chǔ)建設(shè)面向主題的數(shù)據(jù)倉(cāng)庫(kù),建立基于聯(lián)機(jī)分析處理(OLAP) 的醫(yī)院決策支持系統(tǒng)" title="決策支持系統(tǒng)">決策支持系統(tǒng)。該系統(tǒng)采用數(shù)據(jù)倉(cāng)庫(kù)總線架構(gòu)" title="總線架構(gòu)">總線架構(gòu),通過(guò)共享一致維度集成各個(gè)相對(duì)獨(dú)立的數(shù)據(jù)集市。在客戶端" title="客戶端">客戶端針對(duì)不同的用戶環(huán)境分別使用數(shù)據(jù)透視表服務(wù)和基于ADO MD的Web系統(tǒng),極大地提高了系統(tǒng)的靈活性。
關(guān)鍵詞: OLAP; 數(shù)據(jù)倉(cāng)庫(kù); HIS; 數(shù)據(jù)總線
?
醫(yī)院信息系統(tǒng)HIS(Hospital Information System)在醫(yī)療系統(tǒng)的廣泛應(yīng)用,促進(jìn)了醫(yī)療信息的電子化,使醫(yī)院數(shù)據(jù)庫(kù)的信息量不斷地膨脹。而這些寶貴的醫(yī)學(xué)信息資源對(duì)醫(yī)院的管理和醫(yī)療診斷都具有極高的價(jià)值。然而,許多醫(yī)院當(dāng)初設(shè)計(jì)開(kāi)發(fā)HIS時(shí)的主要目的僅在于滿足日常的業(yè)務(wù)處理,并沒(méi)有考慮到對(duì)數(shù)據(jù)的分析與數(shù)據(jù)的挖掘。HIS運(yùn)行幾年以后,積累了大量的數(shù)據(jù),數(shù)據(jù)項(xiàng)繁雜,收集的海量數(shù)據(jù)往往被沉淀,變成了難以利用的數(shù)據(jù)檔案[1]。
基于數(shù)據(jù)倉(cāng)庫(kù)的聯(lián)機(jī)分析處理OLAP(Online Analytical Processing)是使分析和管理人員能夠從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來(lái)的、能夠真正為用戶所理解并能真實(shí)反映企業(yè)數(shù)據(jù)特性的信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)更深入了解的一類軟件技術(shù)[1]。通過(guò)建立面向主題的數(shù)據(jù)倉(cāng)庫(kù),使用聯(lián)機(jī)分析處理,可對(duì)醫(yī)療數(shù)據(jù)進(jìn)行多方面的綜合分析,從而提高數(shù)據(jù)庫(kù)的利用水平,滿足醫(yī)院管理的需要。
1 數(shù)據(jù)倉(cāng)庫(kù)與OLAP建模分析
1.1 醫(yī)院多維" title="多維">多維數(shù)據(jù)分析的體系結(jié)構(gòu)
多維數(shù)據(jù)分析的體系結(jié)構(gòu)分成四個(gè)部分:數(shù)據(jù)源、數(shù)據(jù)中心、Web服務(wù)器(應(yīng)用服務(wù)器) 和終端客戶應(yīng)用。數(shù)據(jù)源是指醫(yī)院的各種業(yè)務(wù)系統(tǒng)的數(shù)據(jù),如門診、住院、醫(yī)囑等費(fèi)用(HIS) ,醫(yī)院影像信息(PACS) ,檢驗(yàn)檢查信息(LIS、RIS) 等數(shù)據(jù)集。數(shù)據(jù)中心是根據(jù)醫(yī)院的需求確定的分析主題的集合,由各種數(shù)據(jù)集市集成的數(shù)據(jù)倉(cāng)庫(kù)。Web服務(wù)器為多維數(shù)據(jù)分析提供兩種集成和發(fā)布方式,即B/S 結(jié)構(gòu)的Web 集成方式和三層結(jié)構(gòu)的應(yīng)用集成方式。終端客戶應(yīng)用是指多維數(shù)據(jù)分析的數(shù)據(jù)展現(xiàn)分析工具。整個(gè)體系結(jié)構(gòu)如圖1所示。
?

1.2 醫(yī)院數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)
醫(yī)院數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中存在一個(gè)關(guān)鍵的爭(zhēng)論就是如何規(guī)劃數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)。一種觀點(diǎn)認(rèn)為應(yīng)該采用“自頂向下”的整體方法,一次性地創(chuàng)建整個(gè)數(shù)據(jù)倉(cāng)庫(kù)。這種方法不適應(yīng)中國(guó)的醫(yī)療界現(xiàn)狀。大多數(shù)醫(yī)院并沒(méi)有配置完整的IT系統(tǒng),一般建設(shè)只有HIS,部分醫(yī)院可能會(huì)有PACS和LIS,這種現(xiàn)狀無(wú)法一次性完成整體創(chuàng)建。此外,這種方式也無(wú)法適應(yīng)未來(lái)的業(yè)務(wù)調(diào)整。另一種是“自底向上”的觀點(diǎn),認(rèn)為可將各種無(wú)關(guān)的、迥異的數(shù)據(jù)集市裝配成企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)。這種方法比較適合醫(yī)院目前的現(xiàn)狀,這也是本文所采用的方法。但為避免最終數(shù)據(jù)的不兼容,使各個(gè)獨(dú)立數(shù)據(jù)集中的數(shù)據(jù)能集成為企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù),需要共享一致性的維度。因此,本文采用了數(shù)據(jù)倉(cāng)庫(kù)總線結(jié)構(gòu)的形式。
在數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)當(dāng)中,要避免對(duì)構(gòu)建角色和作用的混淆。在開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境時(shí),有四個(gè)相互分離的獨(dú)特構(gòu)件需要考慮:操作型源系統(tǒng)、數(shù)據(jù)聚集環(huán)節(jié)、數(shù)據(jù)展示環(huán)節(jié)與數(shù)據(jù)存取工具[1]。數(shù)據(jù)倉(cāng)庫(kù)的組成結(jié)構(gòu)[2]如圖2所示。操作型源系統(tǒng)即HIS、PACS等系統(tǒng);數(shù)據(jù)聚集環(huán)節(jié)主要是清理建立一致維度,如病人維度、醫(yī)生維度、時(shí)間維度等;數(shù)據(jù)展示環(huán)節(jié)主要是確定面向主題的數(shù)據(jù)集市,如掛號(hào)業(yè)務(wù)和處方業(yè)務(wù)等,通過(guò)一致的維度集成各個(gè)數(shù)據(jù)集市;數(shù)據(jù)存取工具主要是各種分析報(bào)表和數(shù)據(jù)挖掘" title="數(shù)據(jù)挖掘">數(shù)據(jù)挖掘,如數(shù)據(jù)透視服務(wù)、Web查詢等。
?

1.3 維度建模技術(shù)的選擇策略
維度建模是指用于數(shù)據(jù)建模的特殊規(guī)范,與之對(duì)應(yīng)的是實(shí)體-關(guān)系(E-R)模型,它是經(jīng)常應(yīng)用于數(shù)據(jù)倉(cāng)庫(kù)的一種邏輯設(shè)計(jì)技術(shù)。該技術(shù)試圖采用某種直觀的標(biāo)準(zhǔn)框架結(jié)構(gòu)來(lái)表現(xiàn)數(shù)據(jù),并且允許進(jìn)行高性能存取。而實(shí)體-關(guān)系模型的目標(biāo)在于去除各種冗余,努力達(dá)到第三范式的要求,避免各種操作異常。也正是因?yàn)檫@個(gè)原因,實(shí)體-關(guān)系模型不便于分析,它只適合于各種操作數(shù)據(jù)的跟蹤。維度模型的主要部件是事實(shí)表和維度表。在醫(yī)院進(jìn)行多維數(shù)據(jù)分析發(fā)現(xiàn),醫(yī)院的各類人員正是從醫(yī)生、病人、藥品維度等理解業(yè)務(wù)的,這種模型充分反映了用戶眼里所認(rèn)可的業(yè)務(wù)。
多維模型有兩種基本架構(gòu):星型模式和雪花模式。在星型模式中,事實(shí)表整個(gè)模式的中心。事實(shí)表的字段通常由一群主鍵與一些分析匯總數(shù)值字段所組成。而這一群主鍵的值往往又依靠其四周相關(guān)的維表的主鍵值構(gòu)成星型模型。從主鍵與外表鍵的依存關(guān)系來(lái)看,星型模式適用于關(guān)系型數(shù)據(jù)庫(kù)的環(huán)境中。在雪花模式中,多數(shù)經(jīng)過(guò)雪花處理的表使數(shù)據(jù)展示變得復(fù)雜,而且雪花模型所提倡的維護(hù)容易性事實(shí)上也沒(méi)有什么實(shí)際意義,因?yàn)閿?shù)據(jù)加載到展示環(huán)節(jié)的維度方案發(fā)生之前尚有一段很長(zhǎng)的轉(zhuǎn)儲(chǔ)環(huán)節(jié)[2]。此外,因使用雪花維度而節(jié)省下來(lái)的少量磁盤空間也是無(wú)關(guān)緊要的,用2字節(jié)的編碼取代不到12 000行藥品維度表320字節(jié)的產(chǎn)品名稱,能夠節(jié)省不到0.3兆字節(jié)(12 000×18字節(jié))的磁盤空間。但事實(shí)表卻有幾百兆字節(jié)之大的磁盤空間,而且隨著事實(shí)表容量的增大,節(jié)省的磁盤空間實(shí)際上可以忽略不計(jì)。星型模式示意圖如圖3所示。
?

2 多維OLAP系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
根據(jù)前面介紹的數(shù)據(jù)倉(cāng)庫(kù)理論以及多維建模技術(shù),本文具體規(guī)劃和設(shè)計(jì)了基于HIS的醫(yī)院多維聯(lián)機(jī)分析系統(tǒng),以門診為例概述實(shí)現(xiàn)過(guò)程(多維OLAP系統(tǒng)的實(shí)現(xiàn)目前沒(méi)有標(biāo)準(zhǔn)的過(guò)程方法),本文只是探討了各個(gè)實(shí)現(xiàn)的標(biāo)準(zhǔn)步驟。
2.1 確定業(yè)務(wù)過(guò)程
業(yè)務(wù)處理過(guò)程是在機(jī)構(gòu)中進(jìn)行的,一般都由源數(shù)據(jù)收集系統(tǒng)提供支持的自然業(yè)務(wù)活動(dòng),如HIS中的掛號(hào)、處方、醫(yī)囑等。確定業(yè)務(wù)過(guò)程的關(guān)鍵在于分解和梳理。在醫(yī)院業(yè)務(wù)流程中,比如門診,應(yīng)該將掛號(hào)和處方分離為兩個(gè)相關(guān)聯(lián)的業(yè)務(wù)過(guò)程,而不是作為一個(gè)整體。這種劃分一方面使業(yè)務(wù)的流程清晰,事實(shí)表的粒度更小,從而能夠應(yīng)付未來(lái)各種層次上的分析;另一方面可以減少數(shù)據(jù)的冗余量。但分離也對(duì)維度的一致性提出了嚴(yán)格要求。為了以后能進(jìn)行跨業(yè)務(wù)過(guò)程的分析,如分析醫(yī)生某個(gè)月所開(kāi)單據(jù)的平均費(fèi)用,共享維度必須滿足一致性條件才能進(jìn)行集成。處方業(yè)務(wù)細(xì)化方案如圖4所示。
?

2.2 確立多維模型
針對(duì)業(yè)務(wù)過(guò)程,要?jiǎng)?chuàng)建多維模型來(lái)反映這種業(yè)務(wù)??梢来畏譃槿齻€(gè)步驟:定義業(yè)務(wù)過(guò)程的粒度、選定多維模型的維度和確定多維模型的事實(shí)表。粒度定義意味著對(duì)各事實(shí)表行實(shí)際代表的內(nèi)容給出明確的說(shuō)明,這是建模的基準(zhǔn),它反映了事實(shí)表的實(shí)際意義。開(kāi)發(fā)多維模型是一個(gè)迭代過(guò)程,可能要在業(yè)務(wù)用戶需求和選定的源文件細(xì)節(jié)之間反復(fù)切磋。要從用戶角度分析如何看待業(yè)務(wù),應(yīng)該用一組在每個(gè)度量上下文中取單一值而代表了所有可能情況的豐富描述,將事實(shí)表裝扮起來(lái),用于形成每個(gè)事實(shí)表行的數(shù)字型事實(shí)。事實(shí)的確定可以通過(guò)回答“要對(duì)什么內(nèi)容進(jìn)行評(píng)測(cè)”這個(gè)問(wèn)題來(lái)進(jìn)行,明顯屬于不同粒度的事實(shí)必須放在單獨(dú)的事實(shí)表中。本系統(tǒng)選擇星型模式作為多維模型的架構(gòu)。
2.3 多維模型的物理實(shí)現(xiàn)
維度建模的最終方案成為物理設(shè)計(jì)和實(shí)現(xiàn)的起點(diǎn)。首先要確定各個(gè)維度和事實(shí)表的數(shù)據(jù)源。為保證數(shù)據(jù)集市的質(zhì)量,數(shù)據(jù)進(jìn)入數(shù)據(jù)集市前應(yīng)進(jìn)行細(xì)致而具體的數(shù)據(jù)轉(zhuǎn)換工作,數(shù)據(jù)的驗(yàn)證和清理都在這個(gè)環(huán)節(jié)完成。建設(shè)數(shù)據(jù)倉(cāng)庫(kù)的一大挑戰(zhàn)就是在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)之后的數(shù)據(jù)裝入工作。它一般占整個(gè)系統(tǒng)60%~80%的建設(shè)時(shí)間。在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前需要經(jīng)過(guò)提取、校驗(yàn)、清理、轉(zhuǎn)換和遷移這五個(gè)階段。完成數(shù)據(jù)裝入工作后,需針對(duì)數(shù)據(jù)倉(cāng)庫(kù)的增長(zhǎng)和演變做準(zhǔn)備,確定數(shù)據(jù)倉(cāng)庫(kù)維護(hù)和增長(zhǎng)的方案。
2.4 多維模型的客戶端實(shí)現(xiàn)
數(shù)據(jù)展示環(huán)節(jié)是進(jìn)行數(shù)據(jù)組織、存儲(chǔ)并向用戶、報(bào)表撰寫和其他分析型應(yīng)用提供查詢操作的場(chǎng)所。后臺(tái)數(shù)據(jù)聚集環(huán)節(jié)是用戶接觸不到的,這樣一來(lái),展示環(huán)節(jié)就成為業(yè)務(wù)群體眼中的數(shù)據(jù)倉(cāng)庫(kù),它是業(yè)務(wù)群體通過(guò)數(shù)據(jù)存取工具所看到和接觸的一切[1]。
在客戶端分析工具的選取上,系統(tǒng)依據(jù)不同使用環(huán)境而有不同的選擇。針對(duì)內(nèi)部局域網(wǎng)環(huán)境下,安全性要求較低,而分析能力要求更強(qiáng)的情況,系統(tǒng)選用數(shù)據(jù)透視表服務(wù)和Excel工具,它具有豐富的圖形化表示;在Internet環(huán)境下,安全和保密性要求較高,系統(tǒng)則采用基于ADO MD的Web 應(yīng)用程序作為分析工具。實(shí)踐表明,這種選擇帶來(lái)了安全性和靈活性。圖5是分析結(jié)果示意圖。
?

本文針對(duì)醫(yī)院HIS系統(tǒng)的現(xiàn)狀,嘗試一種利用數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行分析的新方案,以解決醫(yī)院管理的輔助決策問(wèn)題。系統(tǒng)采用數(shù)據(jù)倉(cāng)庫(kù)總線架構(gòu)形式,保證了系統(tǒng)的可行性與可擴(kuò)展性;在客戶端工具選擇上則根據(jù)應(yīng)用環(huán)境的劃分策略,這是一種有益嘗試。為了更好地支持輔助決策,系統(tǒng)應(yīng)該引進(jìn)數(shù)據(jù)挖掘手段,這也是本系統(tǒng)下一步的目標(biāo)之一。
參考文獻(xiàn)
[1] ?張文君,胡淑濤,張磊,等.OLAP技術(shù)在醫(yī)院決策支持系統(tǒng)中的應(yīng)用. 醫(yī)院數(shù)字化, 2005,(12).
[2] ?KIMBALL R, ROSS M著.數(shù)據(jù)倉(cāng)庫(kù)工具箱.譚明金譯.北京:電子工業(yè)出版社,2003.
