引言
文本到結(jié)構(gòu)化查詢語言(Text-to-SQL,T2S)是自然語言問題和數(shù)據(jù)庫工具結(jié)合的重要研究領(lǐng)域,具體是指將自然語言轉(zhuǎn)化為計(jì)算機(jī)可執(zhí)行的SQL查詢語句的過程,它解決了從非結(jié)構(gòu)化的自然語言和數(shù)據(jù)庫模式到結(jié)構(gòu)化SQL的轉(zhuǎn)換等系列問題。T2S技術(shù)的核心在于從文本數(shù)據(jù)里自動(dòng)識(shí)別專業(yè)術(shù)語、所屬領(lǐng)域、關(guān)聯(lián)關(guān)系及結(jié)構(gòu)特征,進(jìn)而構(gòu)建相應(yīng)映射體系。傳統(tǒng)映射構(gòu)建模式高度依賴領(lǐng)域?qū)<业娜斯ひ?guī)范操作,這種方式在知識(shí)體系持續(xù)迭代更新,或者領(lǐng)域?qū)<屹Y源匱乏的場(chǎng)景下,往往會(huì)暴露出耗時(shí)久、成本高、易出錯(cuò)等諸多弊端。而隨著自然語言處理技術(shù)的迅猛發(fā)展,大語言模型與T2S技術(shù)的融合應(yīng)用已成為新的發(fā)展趨勢(shì)。
傳統(tǒng)的T2S方法是基于規(guī)則模式的語法解析和模板匹配,需要大量人工標(biāo)注或手動(dòng)構(gòu)建規(guī)則[1]。而大語言模型具有強(qiáng)大的語言理解和生成能力[2],能夠理解文本內(nèi)容、提取關(guān)鍵信息、識(shí)別語義關(guān)系。利用大語言模型對(duì)大規(guī)模文本進(jìn)行預(yù)訓(xùn)練,可從中自動(dòng)學(xué)習(xí)實(shí)體和關(guān)系以及數(shù)據(jù)庫模式,進(jìn)而構(gòu)建和更新從文本到SQL的映射關(guān)系,減輕領(lǐng)域?qū)<以跀?shù)據(jù)標(biāo)注、規(guī)則構(gòu)建階段的工作量。然而,當(dāng)前Text-to-SQL研究的進(jìn)展仍受限于數(shù)據(jù)集的質(zhì)量與規(guī)模[3]?,F(xiàn)有主流數(shù)據(jù)集如Spider、WikiSQL、Bird雖在多領(lǐng)域覆蓋與復(fù)雜查詢標(biāo)注上取得一定成果,但仍存在領(lǐng)域分布不均衡、真實(shí)業(yè)務(wù)場(chǎng)景模擬不足、標(biāo)注成本高昂等問題[4],難以滿足實(shí)際應(yīng)用中多樣化的SQL查詢需求。與此同時(shí),合成數(shù)據(jù)技術(shù)憑借其高效、低成本的優(yōu)勢(shì)展現(xiàn)出巨大潛力[5],特別是訓(xùn)練數(shù)據(jù)數(shù)量匱乏條件下,在數(shù)據(jù)增強(qiáng)與模型泛化能力提升方面表現(xiàn)突出。
綜上,本文采用國產(chǎn)達(dá)夢(mèng)數(shù)據(jù)庫(DM)開展數(shù)據(jù)集設(shè)計(jì),達(dá)夢(mèng)數(shù)據(jù)庫作為國產(chǎn)數(shù)據(jù)庫系統(tǒng)之一,在軍事、政務(wù)等關(guān)鍵領(lǐng)域逐步替代Oracle等國外數(shù)據(jù)庫。本文針對(duì)“執(zhí)勤”業(yè)務(wù)場(chǎng)景,設(shè)計(jì)國產(chǎn)數(shù)據(jù)庫系統(tǒng)并構(gòu)建專用數(shù)據(jù)集,該數(shù)據(jù)集包含300條高質(zhì)量標(biāo)注樣本,主要針對(duì)軍事典型業(yè)務(wù)查詢場(chǎng)景。達(dá)夢(mèng)數(shù)據(jù)庫的模式權(quán)限設(shè)計(jì)參考《達(dá)夢(mèng)數(shù)據(jù)庫技術(shù)文檔》[6]。同時(shí),采用基于合成數(shù)據(jù)方法的大語言模型兩階段訓(xùn)練技術(shù),通過對(duì)比實(shí)驗(yàn)評(píng)估合成數(shù)據(jù)與真實(shí)數(shù)據(jù)的分布一致性及對(duì)模型性能的提升效果,探索大語言模型在國產(chǎn)數(shù)據(jù)庫環(huán)境下的適配方法,為數(shù)據(jù)保障業(yè)務(wù)提供技術(shù)支撐。實(shí)驗(yàn)結(jié)果表明,本數(shù)據(jù)集不僅能有效補(bǔ)充現(xiàn)有數(shù)據(jù)資源的不足,且通過合成數(shù)據(jù)驗(yàn)證的方式,為TexttoSQL數(shù)據(jù)集的構(gòu)建與評(píng)估提供了新的技術(shù)路徑。
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://m.ihrv.cn/resource/share/2000006862
作者信息:
李國深1,劉瑩君2,于莉娜2,紀(jì)濤2,張航1,吳繼冰1
(1.大數(shù)據(jù)與決策國家級(jí)重點(diǎn)實(shí)驗(yàn)室,湖南長(zhǎng)沙410073;
2.智能空間信息國家級(jí)重點(diǎn)實(shí)驗(yàn)室,北京100029)

