引言
由機構(gòu)編制體制調(diào)整帶來的機構(gòu)樹變化、由新裝備入編或老裝備退編所導致的裝備分類樹變化等基礎數(shù)據(jù)調(diào)整是信息系統(tǒng)經(jīng)常需面對的情況,如何查詢歷史數(shù)據(jù)以及追溯數(shù)據(jù)變化是一個比較難解決的問題。目前大部分管理信息系統(tǒng)只能通過手工還原歷史數(shù)據(jù)庫版本來滿足歷史數(shù)據(jù)查詢要求,效率低下且難以滿足歷史數(shù)據(jù)自動追溯需求。數(shù)據(jù)中臺建設可對解決此問題提供比較理想的解決方案,通過結(jié)構(gòu)化數(shù)據(jù)在線抽取功能,數(shù)據(jù)中臺支持對能夠訪問的本地關系型數(shù)據(jù)進行同構(gòu)化抽取,并將數(shù)據(jù)存儲在原始庫。在數(shù)據(jù)抽取過程中,通過應用數(shù)據(jù)起源相關技術,可將所有曾經(jīng)抽取過的歷史數(shù)據(jù)存儲在歷史數(shù)據(jù)庫中,從而能有效滿足歷史快照查詢、樹形表演化歷史追蹤等數(shù)據(jù)溯源需求。本文著眼于追溯數(shù)據(jù)中臺源信息系統(tǒng)元數(shù)據(jù)和數(shù)據(jù)記錄變化,分別進行了數(shù)據(jù)表元數(shù)據(jù)起源標注和數(shù)據(jù)表數(shù)據(jù)記錄起源標注設計,并針對數(shù)據(jù)表元數(shù)據(jù)版本變化歷史追溯、數(shù)據(jù)表數(shù)據(jù)記錄版本變化歷史追溯和指定時間段機構(gòu)樹演化歷史追溯等典型溯源需求給出了具體解決方案。這種追溯類似于零部件拆卸所導致的裝備BOM(Bill of Materials)歷史變化溯源,文獻[1-2]針對裝備維修階段的裝備 BOM數(shù)據(jù)起源追蹤,進行了起源標注的設計和形式化描述,并給出了裝備 BOM數(shù)據(jù)起源追溯算法的形式化描述。文獻[1-2]中的裝備維修BOM類似于本文中的機構(gòu)樹,但其追溯只考慮了數(shù)據(jù)表數(shù)據(jù)記錄變化,未考慮數(shù)據(jù)表元數(shù)據(jù)變化,且其主要針對起源標注設計和起源追溯進行了形式化表示,雖證明了基于起源標注的BOM數(shù)據(jù)起源追溯可行性,但基本未涉及工程實現(xiàn)細節(jié);本文則提出了基于全量哈希比對的起源標注生成和存儲機制,描述了具體工程實現(xiàn)。文獻[3]提出了一種數(shù)據(jù)起源形式化表示模型,其重點是基于形式化表示模型,從多個層面解釋全特性SQL和過程語言中的數(shù)據(jù)起源,主要適用于多表關聯(lián)聚合情況下數(shù)據(jù)表元數(shù)據(jù)的起源追溯;本文重點則在于數(shù)據(jù)中臺在線同構(gòu)化抽取情況下單條數(shù)據(jù)表記錄和樹形表數(shù)據(jù)記錄的起源追溯。文獻[4]提出了一種基于時態(tài)關系的數(shù)據(jù)起源模型,利用時態(tài)表可以獲取關系表在特定時間戳下的歷史快照,由于快照會占用較多的存儲資源,該文提出了快照的最優(yōu)放置方案,即計算指定數(shù)量的時間戳,使得使用這些時間戳下的快照對查詢的優(yōu)化效果最好。其研究重點在于如何降低時態(tài)關系的數(shù)據(jù)冗余和提高歷史快照查詢效率,未涉及樹形表溯源問題。
本文詳細內(nèi)容請下載:
http://m.ihrv.cn/resource/share/2000006899
作者信息:
周學文,薛猛
(中國人民解放軍31306部隊,四川成都610036)

