《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 设计应用 > 面向社交平台应急关联信息的文本分类综述
面向社交平台应急关联信息的文本分类综述
网络安全与数据治理
姜钰棋, 强子珊,卜凡亮
中国人民公安大学信息网络安全学院
摘要: 紧急事件发生初期,及时从海量社交平台数据中挖掘有效信息为应急响应提供决策参考具有重要意义。随着自然语言处理技术飞速发展,文本分类已被逐渐运用于该领域,主要可分为基于传统机器学习的K近邻、朴素贝叶斯、决策树、支持向量机等方法,以及基于深度学习的CNN、RNN、GCN、Transformer等方法。从算法原理、发展历程、适用领域及性能优劣等方面对当前主流的文本分类方法进行分析,调研了社交平台应急关联信息文本分类的研究现状与热点,归纳了现有方法面临的问题与挑战,展望了未来研究方向,为后续科研工作提供参考与启示。
中圖分類(lèi)號(hào):TP391.1;TP18文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.19358/j.issn.2097-1788.2024.05.001
引用格式:姜鈺棋, 強(qiáng)子珊,卜凡亮.面向社交平臺(tái)應(yīng)急關(guān)聯(lián)信息的文本分類(lèi)綜述[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2024,43(5):1-10,34.
Overview of text classification for emergency related information on social platforms
Jiang Yuqi, Qiang Zishan, Bu Fanliang
College of Information Network Security, People′s Public Security University of China
Abstract: In the early stages of an emergency event, timely extraction of valuable information from massive social media data holds great significance in providing decision-making references for emergency response. With the rapid development of natural language processing, text classification has gradually been applied in this field, mainly divided into traditional machine learning based methods such as K-Nearest Neighbor, Naive Bayes, Decision Tree, Support Vector Machines, and deep learning based methods such as CNN, RNN, GCN and Transformer. This paper analyzes the current mainstream text classification methods from aspects including algorithm principles, development history, applicable fields, advantages and disadvantages. It investigates the research status and hotspots of text classification for emergency-related information on social media platforms, summarizes the problems and challenges faced by existing methods, and presents future research directions, providing references and inspiration for subsequent scientific research work.
Key words : text classification; machine learning; deep learning; emergency related information on social platforms

引言

突發(fā)事件具有不可控性與未知性,一旦發(fā)生,后果往往難以設(shè)想。在應(yīng)急處置過(guò)程中,如果要有效提升應(yīng)急救援協(xié)調(diào)能力,降低突發(fā)事件帶來(lái)風(fēng)險(xiǎn)并減少損失,那么對(duì)事件關(guān)聯(lián)信息進(jìn)行及時(shí)準(zhǔn)確的收集、處理和共享就顯得至關(guān)重要。

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與智能終端的普及,網(wǎng)絡(luò)文本逐漸成為大數(shù)據(jù)背景下一種重要的信息資源。在突發(fā)事件發(fā)生的緊急情況下,社交媒體會(huì)充當(dāng)重要的信息交流平臺(tái),實(shí)時(shí)傳遞緊急事件的相關(guān)情況。因此,社交平臺(tái)應(yīng)急關(guān)聯(lián)信息文本分類(lèi)的研究已成為互聯(lián)網(wǎng)時(shí)代的熱點(diǎn)問(wèn)題之一。許多學(xué)者開(kāi)始關(guān)注社交平臺(tái)應(yīng)急關(guān)聯(lián)信息的文本分類(lèi)問(wèn)題。即通過(guò)將社交平臺(tái)上的信息劃分為不同的類(lèi)別來(lái)實(shí)現(xiàn)快速甄別,為應(yīng)急救援部門(mén)提供及時(shí)、可靠的決策支持。所采用的研究方法可分為基于機(jī)器學(xué)習(xí)的傳統(tǒng)分類(lèi)算法與基于深度學(xué)習(xí)的分類(lèi)模型。伴隨著B(niǎo)ERT[1]等大規(guī)模語(yǔ)言模型的問(wèn)世,基于預(yù)訓(xùn)練模型的文本分類(lèi)研究取得了突破性進(jìn)展,分類(lèi)準(zhǔn)確度不斷提升。隨之而來(lái)的挑戰(zhàn)也不可忽視。例如,社交平臺(tái)上獲取的信息通常是非結(jié)構(gòu)化且由多種模態(tài)組成的,并且可能伴隨大量的噪聲信息,會(huì)大大增加分類(lèi)的難度,使分類(lèi)結(jié)果的準(zhǔn)確性難以得到保證。因此,如何有效地篩選與處理信息數(shù)據(jù),同時(shí)融合多模態(tài)數(shù)據(jù)進(jìn)行更全面的分析,仍需進(jìn)行深入的研究。此外,如何提高分類(lèi)算法的魯棒性和泛化能力,也是需要進(jìn)一步深究的問(wèn)題。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://m.ihrv.cn/resource/share/2000006009


作者信息:

姜鈺棋, 強(qiáng)子珊,卜凡亮

(中國(guó)人民公安大學(xué)信息網(wǎng)絡(luò)安全學(xué)院,北京100240)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容