摘 要: 大數(shù)據(jù)的應(yīng)用方興未艾,根據(jù)國內(nèi)企業(yè)的應(yīng)用場景,給出了企業(yè)大數(shù)據(jù)管理解決方案。此方案還為數(shù)據(jù)的進一步處理打下了基礎(chǔ)。
關(guān)鍵詞: 大數(shù)據(jù); 企業(yè)大數(shù)據(jù)管理
IT行業(yè)一直在不斷地努力,以最佳方案滿足日益增長的各種需求。繼云計算之后,大數(shù)據(jù)又成為業(yè)界關(guān)注的熱點。云計算更多地體現(xiàn)在它的商業(yè)模式與服務(wù)模式上,而大數(shù)據(jù)則更關(guān)注數(shù)據(jù)的處理,而這些紛雜的數(shù)據(jù)則是關(guān)系社會、企業(yè)乃至個人生活的核心關(guān)鍵,可以說數(shù)字時代數(shù)據(jù)為要。
1 大數(shù)據(jù)參考架構(gòu)
通常人們認(rèn)為大數(shù)據(jù)具有4V特點,即:Variety(多樣性)、Volume(大容量或海量)、Velocity(快速)和Value(價值)。至于大數(shù)據(jù)的嚴(yán)格定義,則是人者見人、智者見智,莫衷一是[1]。
根據(jù)調(diào)研與實踐,本文給出了相關(guān)的參考架構(gòu),如圖1所示。
可以將大數(shù)據(jù)的參考層次分為4個:
(1) 數(shù)據(jù)采集。主要涉及對數(shù)據(jù)源的采集,包括各種結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)、靜態(tài)數(shù)據(jù)與動態(tài)實時數(shù)據(jù)等。
(2) 數(shù)據(jù)存儲。主要涉及對數(shù)據(jù)的存儲,包括分布式存儲、海量存儲、虛擬存儲等。
(3) 數(shù)據(jù)處理。主要涉及對數(shù)據(jù)的轉(zhuǎn)換、傳輸、分發(fā)等。
(4) 數(shù)據(jù)分析。主要涉及對數(shù)據(jù)的清洗、比對、挖據(jù)、鉆取等。
同時,按照數(shù)據(jù)平臺管理、數(shù)據(jù)維護、安全保護等維度,存在著貫穿各層的管理機制,即:
(1) 系統(tǒng)管理。對構(gòu)建的系統(tǒng)平臺進行管理與維護。
(2) 數(shù)據(jù)管理。按照數(shù)據(jù)生命周期對數(shù)據(jù)進行管理。
(3) 安全管理。對數(shù)據(jù)隱私、數(shù)據(jù)安全、訪問安全、系統(tǒng)安全等方面進行管理。
2 企業(yè)大數(shù)據(jù)解決方案
由于大數(shù)據(jù)的應(yīng)用很多,本文更加關(guān)注企業(yè)所處的混雜數(shù)據(jù)的應(yīng)用場景,基于上面給出的參考架構(gòu),給出相應(yīng)的解決方案。
2.1 應(yīng)用場景
企業(yè)的數(shù)據(jù)是企業(yè)的核心資料,企業(yè)信息化的核心問題就是數(shù)據(jù)的應(yīng)用的效率與效果。目前企業(yè)的數(shù)據(jù)主要包括:財務(wù)類數(shù)據(jù)、管理類數(shù)據(jù)、業(yè)務(wù)類數(shù)據(jù)等,這些數(shù)據(jù)可以是結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。從容量上看,隨著信息化應(yīng)用的不斷提高,可以達(dá)到GB或TB級,對于一些行業(yè),甚至有可能達(dá)到PB級。
2.2 解決方案
本文提出的企業(yè)大數(shù)據(jù)解決方案是從業(yè)務(wù)連續(xù)性的角度來考慮用戶數(shù)據(jù)的問題。參考了業(yè)界流行的ISO20000、ISO27000、BCP/DRP、SOA等相關(guān)標(biāo)準(zhǔn)和技術(shù),從安全、服務(wù)的范疇來管理數(shù)據(jù)、保護數(shù)據(jù)、使用數(shù)據(jù)。
方案主要解決企業(yè)用戶的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的存儲、管理,為企業(yè)相關(guān)應(yīng)用提供基礎(chǔ)數(shù)據(jù),為企業(yè)的業(yè)務(wù)連續(xù)性保駕護航。
2.2.1 技術(shù)特點
方案主要融合了信息安全技術(shù)、數(shù)據(jù)管理技術(shù)、數(shù)據(jù)同步復(fù)制技術(shù)、數(shù)據(jù)庫技術(shù)、商務(wù)智能技術(shù)等,區(qū)別于現(xiàn)有的數(shù)據(jù)備份產(chǎn)品、數(shù)據(jù)復(fù)制產(chǎn)品、數(shù)據(jù)管理產(chǎn)品,更關(guān)注數(shù)據(jù)在復(fù)制之后能夠被快速使用與恢復(fù),以延續(xù)業(yè)務(wù)的連續(xù)性。
方案為用戶數(shù)據(jù)的進一步加工處理打下了基礎(chǔ),有助于用戶整合數(shù)據(jù)、整合應(yīng)用、數(shù)據(jù)加工、商務(wù)智能、決策分析等。
主要特點:
(1)支持多種數(shù)據(jù)庫的不同版本,也支持多種異構(gòu)數(shù)據(jù)庫之間的同步,如Oracle、SQL Server、MySQL、Sybase、DB2、AS400等可以同步到Oracle數(shù)據(jù)庫或其他數(shù)據(jù)庫上。
(2)支持一對一、一對多、多對一、多對多等異構(gòu)數(shù)據(jù)庫同步方式。
(3)比較強的數(shù)據(jù)加工能力,可以選擇數(shù)據(jù)源的不同字段,也可以對數(shù)據(jù)源做相應(yīng)的轉(zhuǎn)換、邏輯判斷、映射等處理,還可以設(shè)置在數(shù)據(jù)同步時做異常數(shù)據(jù)檢查等。
(4)比較強的傳輸能力,內(nèi)置數(shù)據(jù)傳輸平臺,滿足復(fù)雜網(wǎng)絡(luò)情況下的數(shù)據(jù)可靠傳輸,支持廣域網(wǎng)下的數(shù)據(jù)同步,支持跨網(wǎng)段的數(shù)據(jù)同步,支持物理隔離情況下的數(shù)據(jù)同步。
(5)易用性。提供中文工具,方便可視化操作和監(jiān)控。
2.2.2 技術(shù)原理
統(tǒng)一支持結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的同步及相應(yīng)加工。提供可視化工具配置結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的同步與加工。
(1)非結(jié)構(gòu)化數(shù)據(jù)文件既可以通過系統(tǒng)內(nèi)置的傳輸平臺同步到備份方的文件夾下,也可以將備份方文件夾下的數(shù)據(jù)文件映射到數(shù)據(jù)庫上。
對于非結(jié)構(gòu)化的文件備份,可以在數(shù)據(jù)源方部署一個節(jié)點,負(fù)責(zé)監(jiān)控和發(fā)送文件,通過可視化配置的數(shù)據(jù)推送服務(wù),選擇要發(fā)送的文件夾、文件、接收節(jié)點、接收文件夾等信息,通過定時等調(diào)度策略將文件發(fā)送到備份方。當(dāng)然要發(fā)送的文件(或文件夾)、備份方的文件(或文件夾)可以來自于接口表或接口文件,通過接口表(或接口文件)實現(xiàn)文件的備份。
能實現(xiàn)非結(jié)構(gòu)文件到結(jié)構(gòu)化數(shù)據(jù)的映射,可視化配置非結(jié)構(gòu)文件到異構(gòu)系統(tǒng)的映射服務(wù),可視化定義文件分類處理服務(wù),根據(jù)文件的不同分類調(diào)用相應(yīng)非結(jié)構(gòu)文件到異構(gòu)系統(tǒng)的映射服務(wù)。
(2) 結(jié)構(gòu)化數(shù)據(jù)方面支持Oracle、MS SQL Server、IBM DB2、AS 400、Sybase ASE、Sybase IQ、MS Access、MySQL、PostgreSQL、Intersystems Cache、Informix、Gupta SQL
Base、dBase III, IV or 5、Firebird SQL、MaxDB (SAP DB)、Hypersonic、Generic database、SAP R/3 System、CA Ingres、Borland Interbase、KingbaseES等不同版本的數(shù)據(jù)庫作為源或者目標(biāo)。
其技術(shù)原理如圖2所示,核心主要包括數(shù)據(jù)源層、數(shù)據(jù)管理服務(wù)器組層、數(shù)據(jù)鏡像服務(wù)器組層、數(shù)據(jù)存儲層這幾部分。數(shù)據(jù)源可以是不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫,也可以是文件系統(tǒng);ReiKing引擎實現(xiàn)了將異構(gòu)的數(shù)據(jù)源(數(shù)據(jù)庫或非結(jié)構(gòu)化的文件等)備份到相應(yīng)的鏡像服務(wù)器的數(shù)據(jù)庫或文件系統(tǒng)上,ReiKing引擎部署在服務(wù)器上,一臺機器可以部署一個或多個ReiKing引擎,根據(jù)同步業(yè)務(wù)負(fù)載情況通過擴展引擎數(shù)或者機器數(shù)實現(xiàn)性能和可靠性的擴展;數(shù)據(jù)鏡像服務(wù)器組的數(shù)據(jù)庫服務(wù)器接收來自于ReiKing引擎的數(shù)據(jù),并通過數(shù)據(jù)庫服務(wù)器保存到結(jié)構(gòu)化數(shù)據(jù)存儲;數(shù)據(jù)存儲層可以通過數(shù)據(jù)庫服務(wù)器保存結(jié)構(gòu)化數(shù)據(jù),也可以通過ReiKing引擎直接保存要同步的文件等信息。
可以生成數(shù)據(jù)備份引擎,通過業(yè)務(wù)邏輯策略的定制,一個引擎可以完成一個或者多個數(shù)據(jù)源的備份,也可以多個引擎完成一個數(shù)據(jù)源的備份。一臺機器可以部署一個引擎,也可以一臺機器部署多個引擎,隨著業(yè)務(wù)應(yīng)用及信息系統(tǒng)不斷擴展,方便通過增加引擎等手段的拓展。
引擎之間可以互為備用,示意圖如圖3所示。
有一個或多個引擎組成運行環(huán)境,引擎可以分組處理,也可以互為備份。
機器C運行管理服務(wù)器、管理工具,保存統(tǒng)一的規(guī)則和定制相互備份的運行服務(wù)器的使用規(guī)則;機器A、機器B保存各自的使用規(guī)則,平時獨立運行,各自做相應(yīng)的處理服務(wù),當(dāng)任何一臺機器出現(xiàn)故障時,另一臺機器根據(jù)設(shè)定規(guī)則,啟動出現(xiàn)故障的機器上運行引擎,并做相應(yīng)的調(diào)動運行處理。
經(jīng)過數(shù)據(jù)同步、交換、集中等整合處理后的數(shù)據(jù)還可以做數(shù)據(jù)治理等深加工,包括數(shù)據(jù)質(zhì)量的管理、主數(shù)據(jù)的管理、數(shù)據(jù)的監(jiān)控、數(shù)據(jù)審核等,方便數(shù)據(jù)分析、數(shù)據(jù)決策等數(shù)據(jù)應(yīng)用;同時,還可以實現(xiàn)數(shù)據(jù)的共享和交換,配置出共享的數(shù)據(jù)服務(wù),通過安全的授權(quán)和權(quán)限鑒定,方便實現(xiàn)數(shù)據(jù)的安全共享,減少對數(shù)據(jù)庫的直接訪問,保證使用者只能訪問經(jīng)過授權(quán)的數(shù)據(jù)。此外還可以實現(xiàn)數(shù)據(jù)生命周期管理,經(jīng)過備份的數(shù)據(jù)可以再被歸檔到不同的庫中,需要時可以按需恢復(fù)使用備份和歸檔的數(shù)據(jù)。
2.2.3 基于流計算的數(shù)據(jù)加工服務(wù)
數(shù)據(jù)管理提供了基于流計算的數(shù)據(jù)加工服務(wù),對來自數(shù)據(jù)庫、文件、隊列、應(yīng)用系統(tǒng)等異構(gòu)系統(tǒng)的數(shù)據(jù),在數(shù)據(jù)流中做加工處理,包括數(shù)據(jù)轉(zhuǎn)換/清洗、數(shù)據(jù)復(fù)制、差錯數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)傳輸、數(shù)據(jù)比對、數(shù)據(jù)裝載、流程處理、數(shù)據(jù)路由等處理,如圖4所示。主要功能如下:
(1)異構(gòu)數(shù)據(jù)源或目標(biāo)
①數(shù)據(jù)庫:Oracle、SQL Server、DB2、Sybase ASE、Sybase IQ、Informix、My SQL、Access等。
②數(shù)據(jù)文件:文本文件(分隔符、定長等)、Excel文件、DBF文件、睿智文件、XML等。
③XML:XML文件或內(nèi)存中的XML。
④內(nèi)存表:由其他系統(tǒng)或消息隊列傳來的數(shù)據(jù)可以存在內(nèi)存表中作為輸入,經(jīng)過整合處理后也可以放到內(nèi)存表中,提供給被調(diào)用方,還可以放到消息隊列中,由消息中間件傳輸處理。
⑤數(shù)據(jù)庫表、消息隊列內(nèi)容、文件、 XML之間的相互轉(zhuǎn)換。
⑥支持異構(gòu)的字符集,數(shù)據(jù)源或目標(biāo)可以是中文、西文等字符集。
⑦支持?jǐn)?shù)據(jù)庫SQL。支持SQL語句調(diào)用、支持SQL函數(shù)調(diào)用、支持SQL存儲過程調(diào)用。
⑧支持結(jié)構(gòu)體,方便自定義類型、自定義結(jié)構(gòu)、結(jié)構(gòu)體成員的抽取。
(2)支持實時、增量、批量、全量的抽取。抽取條件可以是靜態(tài)語句、動態(tài)SQL規(guī)則、來自變量、來自變量組等。
(3)數(shù)據(jù)轉(zhuǎn)換處理
①格式轉(zhuǎn)換,包括字段拆分/合并、不同格式間轉(zhuǎn)換。
②靜/動態(tài)字段,包括系統(tǒng)時間、動態(tài)序列號、給定值。
③比對、翻譯轉(zhuǎn)換處理,包括基于規(guī)則表的翻譯、給定規(guī)則翻譯、給定數(shù)據(jù)的比對處理等。
④數(shù)學(xué)運算,不同的數(shù)據(jù)對象之間作數(shù)學(xué)運算。
⑤聚類處理,根據(jù)一個或幾個字段做聚類操作。
⑥身份證轉(zhuǎn)換等轉(zhuǎn)換處理。
(4)數(shù)據(jù)路由
①采用“一次抽取,按條件路由”的機制。
②支持一對多的數(shù)據(jù)推送方式。
③減輕對數(shù)據(jù)源如數(shù)據(jù)庫的壓力。
④提高處理的性能。
⑤路由條件可以是動態(tài)的,也可以是組合的。
(5)支持?jǐn)?shù)據(jù)比對裝載處理。支持和目標(biāo)內(nèi)容做比對操作,并根據(jù)比對結(jié)果做相應(yīng)的增加、覆蓋、刪除等處理。
(6)支持緩慢變化維、日志、比對、數(shù)據(jù)回寫等增量抽取策略。
(7)緩慢變化維處理
①提供緩慢變化維模版和向?qū)?,方便緩慢變化維的設(shè)計。
②可以保留最新值、保留上次數(shù)據(jù)值,也可以保留給定時間范圍或最近的數(shù)據(jù),還可以保留所有的歷史數(shù)據(jù)值。
2.2.4 安全
數(shù)據(jù)安全處理主要包括系統(tǒng)認(rèn)證安全、傳輸安全、安全授權(quán)和鑒定[2]。
(1)系統(tǒng)安全認(rèn)證
系統(tǒng)安全實現(xiàn)提供運行時鑒定,ReiKing引擎運行時驗證運行機器和Key,只有都匹配時才能執(zhí)行,保證ReiKing運行的加工規(guī)則只能在ReiKing環(huán)境下運行。ReiKing提供安全連接認(rèn)證機制,每個節(jié)點都有不同的密鑰用于實現(xiàn)建立連接時的加密處理和安全的認(rèn)證。
(2)傳輸安全
提供可靠的安全傳輸機制,保證了數(shù)據(jù)傳輸中的數(shù)據(jù)的一致性、完整性。除了網(wǎng)絡(luò)傳輸?shù)闹厮秃蛿?shù)據(jù)冗余校驗機制外,還提供了數(shù)據(jù)稽核機制,對傳輸?shù)臄?shù)據(jù)量、文件數(shù)量、實體完整性和非空字段進行稽核。
對于涉密數(shù)據(jù),還提供了安全加密傳輸機制,可以根據(jù)密鑰對所需數(shù)據(jù)進行加密后傳送。
(3)安全授權(quán)和鑒定
提供安全授權(quán)管理,滿足不同用戶安全權(quán)限的需求。比如有的用戶只有瀏覽的權(quán)限而沒有編輯的權(quán)限,有的用戶只能編輯自己的對象而不能訪問別人的對象,有的用戶只有設(shè)計的權(quán)限而沒有運行任務(wù)的權(quán)限,而管理員擁有全部的權(quán)限。
提供分級安全管理功能,實現(xiàn)了如下安全管理:
①系統(tǒng)提供管理員(包含超級管理員、部門管理員、組管理員)、開發(fā)者、使用者等多種權(quán)限級別的用戶管理,可以由上級管理員授權(quán)下級管理員權(quán)限,滿足總公司和下屬企業(yè)兩級權(quán)限管控的管理需要,如系統(tǒng)管理員只能設(shè)置本單位及下屬單位的用戶。
②分項授權(quán),對運行服務(wù)器、數(shù)據(jù)庫連接、服務(wù)、流程、整合服務(wù)等分項授權(quán),權(quán)限包括執(zhí)行權(quán)、編輯權(quán)、讀取權(quán),滿足系統(tǒng)級、數(shù)據(jù)庫級、軟件功能級、記錄級和字段級等多級別的安全控制需要。
③通過用戶管理和權(quán)限管理,系統(tǒng)對數(shù)據(jù)實現(xiàn)分級管理,本單位的用戶或系統(tǒng)管理員只能對本單位或下屬單位的數(shù)據(jù)進行維護,不可調(diào)整上級單位的數(shù)據(jù)。
④系統(tǒng)提供較完善的日志管理,能詳細(xì)記錄各用戶(含系統(tǒng)管理員)在系統(tǒng)中的操作情況。
⑤身份和權(quán)限的鑒定,操作者在做開發(fā)管理,或者數(shù)據(jù)服務(wù)使用者在使用服務(wù)時,都會根據(jù)該用戶的授權(quán)做相應(yīng)的身份鑒定和權(quán)限鑒定。
數(shù)據(jù)服務(wù)使用安全,當(dāng)應(yīng)用程序通過Web Service方式、API方式、事件等方式使用數(shù)據(jù)服務(wù)時,其訪問情況將由安全授權(quán)來決定。
根據(jù)國內(nèi)企業(yè)的大數(shù)據(jù)應(yīng)用特點,本文提出了相應(yīng)的大數(shù)據(jù)管理解決方案。實踐證明,該方案能夠較好地解決國內(nèi)企業(yè)各種數(shù)據(jù)源的數(shù)據(jù)的存儲、處理等問題,并為解決業(yè)務(wù)連續(xù)性問題打下了基礎(chǔ)??梢哉f這是一種性價比很高、易于操作的方案。
參考文獻
[1] RAJARAMAN A, ULLMAN J D. 大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理[M].王斌,譯.北京:人民郵電出版社, 2012.
[2] 梁鋼, 茅秋吟.云計算 IaaS平臺的信息安全和運維服務(wù)設(shè)計[J].電子技術(shù)應(yīng)用,2013,39(7):63-64,96.