引用格式:許文靜,安寧,于重,等. 大規(guī)模異構數(shù)據(jù)遷移的自適應清洗與智能轉換框架[J].網絡安全與數(shù)據(jù)治理,2025,44(9):35-45.
引言
隨著數(shù)字化轉型進程的加速推進,企業(yè)信息系統(tǒng)正經歷從傳統(tǒng)集中式架構向分布式架構轉型,傳統(tǒng)集中式數(shù)據(jù)庫系統(tǒng)正逐漸被新型混合存儲架構所替代[1]。
新舊系統(tǒng)數(shù)據(jù)遷移工作面臨規(guī)模性、異構性、時效性三個方面技術挑戰(zhàn)[2]。規(guī)模性挑戰(zhàn)體現(xiàn)在海量歷史數(shù)據(jù)的遷移需求上。傳統(tǒng)遷移方法需要較長停機時間,導致無法滿足業(yè)務系統(tǒng)高可用性的要求。異構性挑戰(zhàn)體現(xiàn)在不同數(shù)據(jù)庫系統(tǒng)在數(shù)據(jù)模型和查詢語義等方面的差異。這種差異導致自動化遷移過程中出現(xiàn)各種兼容性問題,特別是在業(yè)務邏輯轉換方面。時效性挑戰(zhàn)體現(xiàn)在遷移過程中的數(shù)據(jù)一致性保障。由于缺乏有效的增量同步機制會導致業(yè)務狀態(tài)不一致,直接影響用戶體驗和系統(tǒng)可靠性。這些挑戰(zhàn)共同形成數(shù)據(jù)遷移工作的主要難點是在有限的時間資源下,難以同時保證遷移效率、數(shù)據(jù)一致性和業(yè)務連續(xù)性。此外,現(xiàn)有解決方案在異構模型轉換和智能化能力方面也存在明顯不足,導致成本居高不下。
基于規(guī)則的數(shù)據(jù)轉換方法、增量數(shù)據(jù)同步技術以及分布式事務管理方案為現(xiàn)有研究工作的主要技術方向。雖然這些方法在特定場景下取得了一定成效,但普遍存在明顯局限?;谝?guī)則的方法需要大量人工干預,難以應對復雜的模型轉換需求?;谡Z義映射的方法雖然提高了轉換精度,但面臨可擴展性問題。雖然機器學習方法為數(shù)據(jù)轉換提供新的思路,但在實際應用中仍存在訓練數(shù)據(jù)需求大、業(yè)務規(guī)則處理能力弱等缺陷[3]。
針對異構性、規(guī)模性和時效性三大核心挑戰(zhàn),本文提出智能轉換框架 AUTOMIG。該框架的核心創(chuàng)新包括兩方面:一是基于圖神經網絡(Graph Neural Network, GNN)的深度關聯(lián)發(fā)現(xiàn)機制,可自動識別數(shù)據(jù)庫中未明確定義的復雜表間關聯(lián),減少對人工規(guī)則的依賴,為跨模型映射提供支持;二是面向大規(guī)模異構遷移的雙模式協(xié)同執(zhí)行引擎,結合全量數(shù)據(jù)分塊并行處理與增量日志流式捕獲,在保障一致性的同時提升吞吐量、降低遷移時間。AUTOMIG 通過元數(shù)據(jù)驅動的動態(tài)適配、自解釋模式轉換與分布式執(zhí)行策略等技術實現(xiàn)上述機制。為驗證其有效性,本文選取具有海量歷史數(shù)據(jù)、高頻更新、復雜網狀關聯(lián)和強領域規(guī)則的大規(guī)模教育培訓系統(tǒng)進行遷移測試,該場景能夠充分體現(xiàn)框架的普適性與智能性。
本文詳細內容請下載:
http://m.ihrv.cn/resource/share/2000006705
作者信息:
許文靜,安寧,于重,劉珠慧
(國務院國有資產監(jiān)督管理委員會干部教育培訓中心,北京100053)