《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 模擬設(shè)計(jì) > 設(shè)計(jì)應(yīng)用 > 基于X-Linear和語(yǔ)義嵌入的視頻描述算法
基于X-Linear和語(yǔ)義嵌入的視頻描述算法
信息技術(shù)與網(wǎng)絡(luò)安全
李亞杰,關(guān)勝曉,倪長(zhǎng)好
(中國(guó)科學(xué)技術(shù)大學(xué) 微電子學(xué)院,安徽 合肥230026)
摘要: 注意力機(jī)制和視頻語(yǔ)義嵌入使得視頻描述任務(wù)取得了顯著的提升,為更好地利用時(shí)序動(dòng)態(tài)特征和語(yǔ)義信息,提出一種基于X-Linear的語(yǔ)義嵌入視頻描述算法(X-Linear Semantic Embedding Network,XLSNet)。該算法以基于編碼解碼器網(wǎng)絡(luò)為基礎(chǔ),使用X-Linear注意力模塊對(duì)視頻特征進(jìn)行編碼,該模塊使用雙線性池化來(lái)增加視頻時(shí)序特征的高階交互,最終提取豐富的時(shí)序動(dòng)態(tài)特征;為充分利用視頻語(yǔ)義信息,使用語(yǔ)義嵌入的GRU和X-Linear作為解碼器對(duì)視頻描述進(jìn)行生成。為防止過(guò)擬合現(xiàn)象,對(duì)解碼器的GRU使用了層歸一化和變分Dropout。所提出的算法僅僅使用了視頻幀特征,在公開(kāi)視頻描述數(shù)據(jù)集MSVD上取得了很好的效果。
中圖分類號(hào): TP183
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.02.008
引用格式: 李亞杰,關(guān)勝曉,倪長(zhǎng)好. 基于X-Linear和語(yǔ)義嵌入的視頻描述算法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(2):45-51.
Video caption algorithm based on X-Linear and semantic embedding
Li Yajie,Guan Shengxiao,Ni Changhao
(School of Microelectronics,University of Science and Technology of China,Hefei 230026,China)
Abstract: The attention mechanism and video semantic embedding have significantly improved the video description task.In order to make better use of the temporal dynamic features and semantic information of the video,a X-Linear-based semantic embedding video description algorithm(X-Linear Semantic Embedding Network,XLSNet) is proposed. The algorithm is based on a encoder-decoder network and uses the X-Linear attention block to encode video features. This block uses bilinear pooling to increase the high-order interaction of video temporal features, and finally extracts rich temporal dynamic features. In order to make full use of video semantic information, semantically embedded GRU and X-Linear are used as decoders to generate video descriptions. To prevent over-fitting, layer normalization and variational Dropout are used for the GRU of the decoder.The proposed algorithm only uses video frame features, and has achieved good results on the public video description data set MSVD.
Key words : video caption;semantic embedding;X-Linear attention;XLSNet

0 引言

         視頻描述任務(wù)是將計(jì)算機(jī)視覺(jué)信息轉(zhuǎn)換為人類能夠理解的自然語(yǔ)言句子的描述。將計(jì)算機(jī)視覺(jué)內(nèi)容理解和自然語(yǔ)言處理兩個(gè)領(lǐng)域相結(jié)合用于解決視頻描述是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。視頻描述涉及對(duì)許多實(shí)體的理解,這些實(shí)體包括場(chǎng)景、人物、物體、人的動(dòng)作、人與物體的交互、人與人的交互、其他事件以及事件發(fā)生的順序等。所有這些信息必須使用自然語(yǔ)言處理(Natural Language Processing,NLP)技術(shù),以一種可壓縮的、語(yǔ)法正確的文本表達(dá)出來(lái)。視頻描述任務(wù)可以應(yīng)用于很多領(lǐng)域,如智能安防、盲人導(dǎo)航、視頻檢索、人機(jī)交互等。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://m.ihrv.cn/resource/share/2000003378




作者信息:

李亞杰,關(guān)勝曉,倪長(zhǎng)好

(中國(guó)科學(xué)技術(shù)大學(xué) 微電子學(xué)院,安徽 合肥230026)

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。