《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 視頻 > YJJFA:一种数据驱动的高性能正则表达式匹配算法

YJJFA:一种数据驱动的高性能正则表达式匹配算法

2026-04-23
內(nèi)容簡介:正則表達(dá)式匹配技術(shù)在人工智能時(shí)代背景下扮演著重要角色,尤其在數(shù)據(jù)清洗與數(shù)據(jù)抽取領(lǐng)域,可為大語言模型訓(xùn)練所需的高質(zhì)量數(shù)據(jù)處理提供技術(shù)支撐。然而,傳統(tǒng)正則表達(dá)式匹配算法存在性能瓶頸,限制了其應(yīng)用范圍。針對(duì)此問題,提出一種基于可信區(qū)域的高性能正則表達(dá)式匹配算法,命名為YJJFA算法。該算法通過對(duì)狀態(tài)轉(zhuǎn)移表劃分成最優(yōu)可信區(qū)域與非信任區(qū)域,減少需要處理的狀態(tài)轉(zhuǎn)移表輸入字符數(shù)量,并借助非內(nèi)存訪問的非信任字符集向量比較以實(shí)現(xiàn)信任字符低時(shí)間消耗處理。實(shí)驗(yàn)結(jié)果表明,YJJFA算法在L7filter規(guī)則上的吞吐率達(dá)17.88~53.81Gb/s,較原始DFA算法性能提升了一個(gè)數(shù)量級(jí)。