《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 大規(guī)模異構數(shù)據(jù)遷移的自適應清洗與智能轉換框架
大規(guī)模異構數(shù)據(jù)遷移的自適應清洗與智能轉換框架
網絡安全與數(shù)據(jù)治理
許文靜,安寧,于重,劉珠慧
國務院國有資產監(jiān)督管理委員會干部教育培訓中心
摘要: 在數(shù)字化轉型背景下,傳統(tǒng)集中式數(shù)據(jù)庫向分布式架構遷移面臨異構數(shù)據(jù)模型語義沖突、業(yè)務連續(xù)性要求、人工轉換低效等核心挑戰(zhàn)。提出智能轉換框架AUTOMIG,其核心創(chuàng)新在于深度挖掘數(shù)據(jù)內在關聯(lián)的智能決策機制與適應大規(guī)模異構環(huán)境的高效執(zhí)行引擎。AUTOMIG創(chuàng)新性地利用圖神經網絡自動發(fā)現(xiàn)隱含于數(shù)據(jù)庫模式中的復雜表間關聯(lián),并結合多目標優(yōu)化模型智能決策最優(yōu)存儲方案,提升跨模型轉換的自動化程度。同時,框架設計獨特的雙模式日志捕獲與流批協(xié)同清洗管道,實現(xiàn)對海量歷史數(shù)據(jù)與高頻實時變更數(shù)據(jù)的低延遲、高可靠同步與清洗。該框架成功實現(xiàn)了在容器化平臺上的部署并以大規(guī)模教育培訓系統(tǒng)數(shù)據(jù)遷移為典型應用案例實踐驗證。結果表明其圖神經網絡驅動的關聯(lián)發(fā)現(xiàn)顯著提升了復雜查詢性能,而雙模式協(xié)同執(zhí)行引擎則大幅縮短了遷移總耗時并優(yōu)化了資源利用效率,為企業(yè)數(shù)字化轉型提供了可靠的技術支撐和實踐路徑。
中圖分類號:TP39文獻標識碼:ADOI:10.19358/j.issn.2097-1788.2025.09.006
引用格式:許文靜,安寧,于重,等. 大規(guī)模異構數(shù)據(jù)遷移的自適應清洗與智能轉換框架[J].網絡安全與數(shù)據(jù)治理,2025,44(9):35-45.
Adaptive cleaning and intelligent transformation framework for large-scale heterogeneous data migration
Xu Wenjing,An Ning,Yu Zhong,Liu Zhuhui
SASAC Education and Training Center
Abstract: In the context of digital transformation, migrating from traditional centralized databases to distributed architectures presents core challenges including semantic conflicts in heterogeneous data models, business continuity requirements, and inefficient manual conversion processes. This paper proposes an intelligent transformation framework named AUTO-MIG, whose core innovations lie in an intelligent decision-making mechanism that deeply mines intrinsic data relationships and a high-performance execution engine adapted to large-scale heterogeneous environments. AUTO-MIG innovatively employs graph neural networks(GNN) to automatically uncover complex inter-table relationships embedded within database schemas and combines a multi-objective optimization model to intelligently determine the optimal storage strategy, thereby enhancing the automation of cross-model data transformation. Furthermore, the framework incorporates a uniquely designed dual-mode log capture mechanism and a stream-batch hybrid cleaning pipeline to achieve low-latency, highly reliable synchronization and cleaning of massive historical data and high-frequency real-time changes. The framework has been successfully deployed on containerized platforms and validated through a large-scale educational training system data migration case. The results demonstrate that the GNN-driven relationship discovery significantly improves complex query performance, while the dual-mode collaborative execution engine considerably reduces total migration time and optimizes resource utilization efficiency. This provides reliable technical support and a practical pathway for enterprise digital transformation.
Key words : heterogeneous data;data migration;intelligent transformation framework;metadata awareness;graph neural network

引言

隨著數(shù)字化轉型進程的加速推進,企業(yè)信息系統(tǒng)正經歷從傳統(tǒng)集中式架構向分布式架構轉型,傳統(tǒng)集中式數(shù)據(jù)庫系統(tǒng)正逐漸被新型混合存儲架構所替代[1]。

新舊系統(tǒng)數(shù)據(jù)遷移工作面臨規(guī)模性、異構性、時效性三個方面技術挑戰(zhàn)[2]。規(guī)模性挑戰(zhàn)體現(xiàn)在海量歷史數(shù)據(jù)的遷移需求上。傳統(tǒng)遷移方法需要較長停機時間,導致無法滿足業(yè)務系統(tǒng)高可用性的要求。異構性挑戰(zhàn)體現(xiàn)在不同數(shù)據(jù)庫系統(tǒng)在數(shù)據(jù)模型和查詢語義等方面的差異。這種差異導致自動化遷移過程中出現(xiàn)各種兼容性問題,特別是在業(yè)務邏輯轉換方面。時效性挑戰(zhàn)體現(xiàn)在遷移過程中的數(shù)據(jù)一致性保障。由于缺乏有效的增量同步機制會導致業(yè)務狀態(tài)不一致,直接影響用戶體驗和系統(tǒng)可靠性。這些挑戰(zhàn)共同形成數(shù)據(jù)遷移工作的主要難點是在有限的時間資源下,難以同時保證遷移效率、數(shù)據(jù)一致性和業(yè)務連續(xù)性。此外,現(xiàn)有解決方案在異構模型轉換和智能化能力方面也存在明顯不足,導致成本居高不下。

基于規(guī)則的數(shù)據(jù)轉換方法、增量數(shù)據(jù)同步技術以及分布式事務管理方案為現(xiàn)有研究工作的主要技術方向。雖然這些方法在特定場景下取得了一定成效,但普遍存在明顯局限?;谝?guī)則的方法需要大量人工干預,難以應對復雜的模型轉換需求?;谡Z義映射的方法雖然提高了轉換精度,但面臨可擴展性問題。雖然機器學習方法為數(shù)據(jù)轉換提供新的思路,但在實際應用中仍存在訓練數(shù)據(jù)需求大、業(yè)務規(guī)則處理能力弱等缺陷[3]。

針對異構性、規(guī)模性和時效性三大核心挑戰(zhàn),本文提出智能轉換框架 AUTOMIG。該框架的核心創(chuàng)新包括兩方面:一是基于圖神經網絡(Graph Neural Network, GNN)的深度關聯(lián)發(fā)現(xiàn)機制,可自動識別數(shù)據(jù)庫中未明確定義的復雜表間關聯(lián),減少對人工規(guī)則的依賴,為跨模型映射提供支持;二是面向大規(guī)模異構遷移的雙模式協(xié)同執(zhí)行引擎,結合全量數(shù)據(jù)分塊并行處理與增量日志流式捕獲,在保障一致性的同時提升吞吐量、降低遷移時間。AUTOMIG 通過元數(shù)據(jù)驅動的動態(tài)適配、自解釋模式轉換與分布式執(zhí)行策略等技術實現(xiàn)上述機制。為驗證其有效性,本文選取具有海量歷史數(shù)據(jù)、高頻更新、復雜網狀關聯(lián)和強領域規(guī)則的大規(guī)模教育培訓系統(tǒng)進行遷移測試,該場景能夠充分體現(xiàn)框架的普適性與智能性。


本文詳細內容請下載:

http://m.ihrv.cn/resource/share/2000006705


作者信息:

許文靜,安寧,于重,劉珠慧

(國務院國有資產監(jiān)督管理委員會干部教育培訓中心,北京100053)


subscribe.jpg

此內容為AET網站原創(chuàng),未經授權禁止轉載。