《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 设计应用 > 面向新闻的长文本事件抽取方法
面向新闻的长文本事件抽取方法
网络安全与数据治理
武剑涛,李俊达,李佰文,淮晓永
华北计算机系统工程研究所
摘要: 事件抽取技术旨在从非结构化文本中识别并结构化描述事件信息,是构建知识图谱与实现舆情分析的核心基础。针对新闻长文本中多事件共存、复杂叙事结构的特点以及现有模型输入长度受限等挑战,提出一种层级化新闻长文本事件抽取框架。该框架通过语义边界分割算法优化段落划分,降低事件要素的跨段落割裂;结合机器阅读理解技术实现局部事件要素提取;并设计事件合并算法完成跨分块事件的语义融合。实际应用表明,该框架能够适应新闻文本的结构特性,在多事件场景中可稳定提取关键信息,为舆情监控、知识图谱构建等任务提供可落地的技术解决方案。
中圖分類號:TP391.13文獻標(biāo)識碼:ADOI:10.19358/j.issn.2097-1788.2025.05.004
引用格式:武劍濤,李俊達,李佰文,等. 面向新聞的長文本事件抽取方法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(5):21-28.
A method for event extraction from lengthy news texts
Wu Jiantao,Li Junda,Li Baiwen,Huai Xiaoyong
National Computer System Engineering Research Institute of China
Abstract: Event extraction technology, which aims to identify and structurally represent event information from unstructured text, serves as the foundational infrastructure for constructing knowledge graphs and enabling public opinion analysis. To address the challenges of multi-event coexistence, complex narrative structures in lengthy news texts, and input length constraints of existing models, this paper proposes a hierarchical event extraction framework specifically designed for news narratives. The framework features three key innovations: (1) a semantic boundary segmentation algorithm that optimizes paragraph segmentation to minimize cross-paragraph fragmentation of event elements; (2) integration of machine reading comprehension (MRC) technology for localized event element extraction; (3) a cross-chunk event fusion algorithm is designed to achieve semantic integration of distributed event components. Experimental evaluations demonstrate that the proposed framework effectively adapts to the structural characteristics of news texts, can consistently extract critical information in multi-event scenarios, and deliver practically viable technical solutions for public opinion monitoring and knowledge graph construction.
Key words : event extraction; machine reading comprehension; semantic chunking

引言

事件抽取是自然語言處理中的一項關(guān)鍵技術(shù),其核心目標(biāo)是從非結(jié)構(gòu)化文本中識別并提取出特定事件的信息,包括事件類型、參與者、時間、地點等關(guān)鍵要素,并以結(jié)構(gòu)化形式呈現(xiàn)出來。通過新聞事件抽取技術(shù),能夠從海量新聞文本中實時提取出關(guān)鍵事件信息,為知識圖譜的構(gòu)建提供高質(zhì)量的數(shù)據(jù)支持。同時,基于對這些信息的實時分析,可以快速識別出正在發(fā)酵的熱點事件,評估其輿論熱度及發(fā)展趨勢,從而為輿情監(jiān)控和決策支持提供精準(zhǔn)、及時的參考依據(jù)。

文本事件抽取的研究經(jīng)歷了從規(guī)則方法到機器學(xué)習(xí),再到深度學(xué)習(xí)的演進。早期研究主要依賴人工規(guī)則和傳統(tǒng)機器學(xué)習(xí)方法,例如,Liao等[1]基于條件隨機場事件檢測方法,解決了從文本中識別事件觸發(fā)詞的問題,為事件抽取任務(wù)奠定了基礎(chǔ)。Ji等[2]提出了基于支持向量機的論元角色標(biāo)注方法,通過分類模型識別事件參與者及其角色,提升了事件結(jié)構(gòu)的完整性。隨著深度學(xué)習(xí)的興起,Chen等[3]提出了基于動態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)的事件抽取方法,解決了傳統(tǒng)方法難以捕捉文本中長距離依賴關(guān)系的問題。近年來,預(yù)訓(xùn)練語言模型(如BERT[4]、GPT[5])的引入進一步推動了該領(lǐng)域的發(fā)展,Li等[6]提出的多階圖卷積網(wǎng)絡(luò)方法通過建模事件內(nèi)部關(guān)系,為解決多事件共存場景下的信息抽取難題提供了新思路,但其端到端處理模式仍受限于新聞文本的跨段落特性。與此同時,機器閱讀理解(Machine Reading Comprehension, MRC)技術(shù)也被引入事件抽取任務(wù),Du等[7]提出的基于MRC框架的方法將事件抽取轉(zhuǎn)化為問答問題,通過預(yù)訓(xùn)練語言模型生成答案,有效提升了泛化能力和長文本處理效果。

然而,新聞文本的特殊性對現(xiàn)有方法提出了獨特挑戰(zhàn)。王人玉等[8]的研究表明,新聞報道中多個獨立事件常以倒金字塔結(jié)構(gòu)分布在相鄰段落,導(dǎo)致事件要素的跨段落分散;Li等[9]進一步指出,新聞段落間的敘事非連續(xù)性事件要素定位誤差和敘事跳躍性使得端到端模型難以有效捕捉局部語義焦點。這些結(jié)構(gòu)性特征與BERT等預(yù)訓(xùn)練模型的長度限制共同作用,導(dǎo)致傳統(tǒng)篇章級方法[10]在處理多事件新聞時丟失關(guān)鍵事件要素。以DuEEFin[11]數(shù)據(jù)集中的《安琪酵母股份有限公司關(guān)于股東通過大宗交易減持股份的公告》(下文簡稱為公告)為例,該文本通過“重要提示”“減持情況”和“其他事項”三個獨立章節(jié)分別承載減持主體“湖北日升”的持股信息(5657 41%)、減持操作(5 417 651股)及合規(guī)聲明,形成典型的多段落協(xié)同敘事結(jié)構(gòu)。這種跨段落分布特征與文本中大量非事件信息交織,易使篇章級抽取模型產(chǎn)生兩種典型錯誤:一是全局語義理解導(dǎo)致的冗余信息干擾,二是事件稀疏性引發(fā)的要素漏檢。

針對上述問題,基于文本結(jié)構(gòu)的分段處理方法展現(xiàn)出更強的適應(yīng)性:通過語義分塊將長文本解構(gòu)為局部信息單元,既可規(guī)避跨段落要素的干擾,又能通過分段抽取-合并策略解決多事件并行處理難題。該方法與新聞文本的多事件分布特性和復(fù)雜敘事結(jié)構(gòu)形成映射關(guān)系,在保持事件要素完整性的同時,有效提升了實際業(yè)務(wù)場景中的信息抽取準(zhǔn)確率。

基于以上研究,本文提出一種層級化事件抽取框架(Hierarchical Event Extraction Framework, HEEF),本框架核心包含:(1) 采用語義分割的長文本分塊技術(shù),通過上下文感知的段落劃分避免事件要素割裂;(2)構(gòu)建基于機器閱讀理解(MRC)的聯(lián)合抽取模型,通過定制問答對實現(xiàn)事件類型與論元角色的精準(zhǔn)解析;(3)設(shè)計跨分塊事件融合策略,通過時空語義約束實現(xiàn)事件聚合。該框架通過“分塊-抽取-融合”的遞進式處理,有效應(yīng)對新聞文本中多事件共存、跨段落分布與語義跳躍性等挑戰(zhàn),為長文本事件抽取提供系統(tǒng)性解決方案。


本文詳細(xì)內(nèi)容請下載:

http://m.ihrv.cn/resource/share/2000006543


作者信息:

武劍濤,李俊達,李佰文,淮曉永

(華北計算機系統(tǒng)工程研究所,北京100083)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容