引言
大型語言模型(Large Language Models,LLMs)近年來因其卓越的語言理解和生成能力而受到了廣泛的關(guān)注。然而,這些模型也可能生成有害、侵犯隱私或者不安全的內(nèi)容[1-2],對用戶和社會造成潛在的風(fēng)險。而特定領(lǐng)域的大語言模型面向特定行業(yè)和特定需求,通常具有高度的專業(yè)性和敏感性,對安全要求更高。因此,對于非通用領(lǐng)域大模型來說,輸出內(nèi)容的安全性和合規(guī)性是主要的挑戰(zhàn)之一。與現(xiàn)有方法不同,本研究提出的方法具有跨領(lǐng)域適用性,可以獨立于LLMs的底層設(shè)計進行應(yīng)用,并且通過干預(yù)模型輸出來確保生成文本的安全性和合規(guī)性,從而為領(lǐng)域LLMs的安全控制提供了一種新穎且實用的解決方案。
為了有效控制大語言模型生成的內(nèi)容,必須確保敏感信息的精準(zhǔn)識別和安全過濾,同時滿足特定場景的業(yè)務(wù)需求。為此,學(xué)者們提出了多種方法來增強模型的可靠性和內(nèi)容質(zhì)量,以應(yīng)對這些問題。目前,主流的增強模型安全性和可靠性的方法是基于人類反饋的強化學(xué)習(xí)(Reinforcement Learning with Human Feedback,RLHF)[3]。通過人類反饋構(gòu)建獎勵模型,并利用該模型對LLMs進行訓(xùn)練,使其能夠生成符合人類期望的內(nèi)容。RLHF架構(gòu)的多個變體也相繼提出,如SafeRLHF[4]、SENSEI[5]和fDPG[6],這些方法在不同方面進行了優(yōu)化,如采用預(yù)訓(xùn)練的LLMs作為獎勵模型,或者在信息檢索領(lǐng)域中提升模型的表現(xiàn)[7]。然而,收集人類標(biāo)注數(shù)據(jù)需要大量時間和成本。為了解決這一問題,一些研究提出了通過人工智能反饋代替人類反饋的強化學(xué)習(xí)[8],從而降低對人類標(biāo)注的依賴。還有研究致力于自動構(gòu)建訓(xùn)練數(shù)據(jù),以進一步降低成本和復(fù)雜性。為提高計算效率,差分偏好優(yōu)化[9]是一種重要的嘗試,該方法的核心思想是允許在不訪問獎勵模型的情況下使用相同的訓(xùn)練數(shù)據(jù)對LLMs進行訓(xùn)練。另一種常見的提高模型可靠性的方法是監(jiān)督微調(diào)(Supervised FineTuning,SFT)[10],該方法通過大規(guī)模標(biāo)注數(shù)據(jù)集對模型進行微調(diào),以提升模型對用戶需求的響應(yīng)能力。RLHF和SFT的共同點在于它們通過直接修改模型參數(shù)來提高模型的可靠性。
除了修改模型參數(shù)外,增強LLMs可靠性的另一種替代方法是直接干預(yù)輸入提示或輸出生成的過程。上下文學(xué)習(xí)(InContext Learning,ICL)[11]是通過干預(yù)輸入提示的一種主要方法。在ICL中,通過提供少量示例,可以引導(dǎo)LLMs完成特定任務(wù),例如少樣本學(xué)習(xí)[12],從而減少生成不合規(guī)內(nèi)容的風(fēng)險。此外,一些研究集中于干預(yù)輸出生成的方式。文獻[13]提出了用于檢索應(yīng)用的輸出格式化方法,避免LLMs在輸出中重復(fù)相同詞匯或短語。此外,Transformers模塊還提供了一些用于修正輸出的函數(shù),如NoBadWordsLogitsProcessor和MinLengthLogitsProcessor。
現(xiàn)有的LLMs安全性控制方法主要依賴于預(yù)訓(xùn)練模型本身的優(yōu)化或后處理技術(shù)。然而,這些方法通常存在局限性,例如依賴底層模型的設(shè)計或難以適用于不同領(lǐng)域的文本生成需求。為了解決上述方法靈活性不足的問題,有學(xué)者對LLM的輸出過濾技術(shù)進行了一些研究,即在LLM生成文本后實施內(nèi)容審查,無需修改模型參數(shù)[14]。針對輸出內(nèi)容的過濾技術(shù),當(dāng)前主要是通過預(yù)定義敏感詞庫或正則表達式匹配攔截的基于規(guī)則的過濾,這種方法實現(xiàn)簡單但泛化能力有限,難以識別語義變體以及進行細粒度權(quán)限控制[15]。
為了有效控制非通用領(lǐng)域大語言模型生成的內(nèi)容,本文提出了一種基于數(shù)學(xué)建模、特征工程和分類算法的安全過濾控制方法,通過應(yīng)用一個安全過濾器來干預(yù)LLMs的輸出(即干預(yù)大語言模型生成序列的軌跡),進而確保生成內(nèi)容符合安全和合規(guī)標(biāo)準(zhǔn),以生成用戶期望的結(jié)果。該方法不僅獨立于LLMs的設(shè)計,還能夠靈活地應(yīng)用于不同領(lǐng)域的文本生成場景,具有廣泛的適用性和較強的實用價值。
本文主要貢獻如下:
本文提出了一種面向特定領(lǐng)域大語言模型的內(nèi)容安全控制機制,設(shè)計了一個添加于LLMs輸出層的外部過濾器,從而實現(xiàn)無需訪問其模型參數(shù)即可控制輸出內(nèi)容。這是一個新穎的“無需學(xué)習(xí)”的LLMs安全控制策略,它不依賴LLMs的底層設(shè)計,可以應(yīng)用于多種特定領(lǐng)域的LLMs,具有良好的通用性和適應(yīng)性。
此外,本文針對特定領(lǐng)域的行業(yè)特點和安全隱私特性,抽取了一些特征因素,并結(jié)合分類算法和特征工程,在大語言模型內(nèi)容安全控制領(lǐng)域做出了一些新的嘗試。與現(xiàn)有基于規(guī)則或詞典的安全過濾方法不同,特征工程技術(shù)結(jié)合分類算法能夠更精確地識別和過濾潛在的風(fēng)險文本,極大提升了檢測精度和適用范圍。
本文詳細內(nèi)容請下載:
http://m.ihrv.cn/resource/share/2000006854
作者信息:
張欣欣1,李濤1,趙龍彪1,賈真真2,周衡廣3
(1.中國人民解放軍92981部隊,北京100161;
2.中國人民解放軍91977部隊,北京100036;
3.中國人民解放軍91526部隊,廣東湛江524064)

