《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 设计应用 > 基于时空注意力金字塔卷积的动作识别
基于时空注意力金字塔卷积的动作识别
网络安全与数据治理 2期
冯雨威,吴丽君
(福州大学 物理与信息工程学院,福建 福州350108)
摘要: 动作识别算法需要从视频中提取空间和时域特征,对计算存储资源要求较高。基于2D CNN的网络更为轻量,但从视频中提取时域特征的能力较弱,动作识别性能通常受到限制。S-TPNet提出时空金字塔模块以获取图像序列的时间粒度特征,有效提升了基于2D CNN的动作识别网络的性能。基于S-TPNet,设计了时空注意力模型以凸显空间和时间上的重要特征。为降低输入数据量,通常抽取局部视频帧作为输入,为降低采样帧与整体视频之间的不稳定差异,设计了自适应等间隔采样策略。实验表明,在未预训练的情况下,本网络在UCF-101和HMDB-51数据集上分别将Top-1精度提高了5.1%和3.3%,并且不会大幅增加所需参数。
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2097-1788.2023.02.012
引用格式: 馮雨威,吳麗君. 基于時(shí)空注意力金字塔卷積的動(dòng)作識(shí)別[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2023,42(2):76-82,88.
Action recognition based on spatial-temporal attention pyramid convolution
Feng Yuwei,Wu Lijun
(College of Physics and Information Engineering,Fuzhou University,Fuzhou 350108,China)
Abstract: Action recognition algorithms need to extract spatial and temporal features from video, which requires high computing and storage resources. The network based on 2D CNN is lighter, but the ability to extract time-domain features from video is weak, and the performance of action recognition is usually limited. S-TPNet proposes a spatial-temporal pyramid module to obtain the time granularity features of image sequences, which effectively improves the performance of the action recognition network based on 2D CNN. Based on S-TPNet, this paper designs a spatial-temporal attention model to highlight the important features of space and time. In order to reduce the amount of input data, local video frames are usually extracted as input. In order to reduce the unstable difference between the sampled frames and the overall video, this paper designs an adaptive equal interval sampling strategy. The experiment shows that without pre training, the network improves Top-1 accuracy by 5.1% and 3.3% on UCF-101 and HMDB-51 datasets, respectively, and does not significantly increase the required parameters.
Key words : spatial-temporal attention;action recognition;adaptive sampling;2D CNN;spatial-temporal pyramid

0 引言

動(dòng)作識(shí)別是從視頻片段中提取有效的空間和時(shí)間特征以分辨人的動(dòng)作類型,在視頻檢索、異常檢測(cè)、智能監(jiān)控、人機(jī)交互和自動(dòng)駕駛等領(lǐng)域逐漸興起。早期算法主要依賴人工提取人體關(guān)節(jié)點(diǎn)和時(shí)空興趣點(diǎn)特征。近年來(lái),基于深度學(xué)習(xí)的算法可有效提取特征、實(shí)現(xiàn)端到端訓(xùn)練,極大提升了動(dòng)作識(shí)別精度和速度。根據(jù)提取特征的方式不同,動(dòng)作識(shí)別算法大致可歸納為基于3D CNN、雙/多流網(wǎng)絡(luò)、CNN(2D或3D)與時(shí)間特征聚合模塊的組合三種類型。3D CNN[1-2]可直接提取時(shí)空特征,但是其采用固定大小的3D卷積核,不能充分挖掘時(shí)間粒度特征,并且相比2D卷積核含有更多參數(shù)。雙流網(wǎng)絡(luò)[3]的輸入通常為RGB幀和光流圖像,提取光流較為繁瑣且易造成延遲?;贑NN與時(shí)間特征聚合模塊[4-5]組合的算法通常使用CNN從單幀或視頻片段提取空間特征,然后使用LSTM或時(shí)間池化從多個(gè)幀或片段間提取時(shí)間特征。LSTM隨著時(shí)間跨度增大、網(wǎng)絡(luò)深度增加,計(jì)算成本將急劇增加。

基于2D CNN與時(shí)間池化的S-TPNet[6]提出了空間金字塔模塊,利用CNN固有的平移和尺度不變性充分提取空間特征,并使用不同尺寸的時(shí)間池重復(fù)利用片段級(jí)數(shù)據(jù)以獲得時(shí)間粒度特征。相比于3D CNN的算法,S-TPNet網(wǎng)絡(luò)參數(shù)大大減少,但在動(dòng)作識(shí)別精度上相對(duì)較低。因此,本文在S-TPNet基礎(chǔ)上引入輕量級(jí)的時(shí)空注意力模型,以提高算法精度。

除網(wǎng)絡(luò)結(jié)構(gòu)外,視頻采樣策略也會(huì)影響動(dòng)作識(shí)別精度。為減少輸入信息的冗余數(shù)量,降低運(yùn)算量,一般會(huì)提取原視頻的部分幀來(lái)作為輸入。視頻采樣策略主要分為密集[7]和稀疏采樣兩種。密集采樣對(duì)設(shè)備的計(jì)算和存儲(chǔ)要求都很高。最近,微軟在視頻和語(yǔ)言學(xué)習(xí)任務(wù)研究[8]中提出“少即是多”的稀疏采樣。在每次訓(xùn)練中僅使用單個(gè)或幾個(gè)稀疏采樣片段,獲得了不輸于密集采樣訓(xùn)練所得的網(wǎng)絡(luò)性能。稀疏采樣包含隨機(jī)采樣和預(yù)定義間隔采樣。隨機(jī)采樣易導(dǎo)致采樣后的相鄰幀之間具有不穩(wěn)定的差異,無(wú)法有效表達(dá)原始視頻的語(yǔ)義內(nèi)容。預(yù)定義間隔采樣不適合數(shù)據(jù)集中視頻段持續(xù)時(shí)間差距較大的情況。因此,本文提出了一種自適應(yīng)等間隔采樣策略,根據(jù)每段視頻的總幀數(shù)和指定的最小采樣數(shù)動(dòng)態(tài)調(diào)整采樣間隔,使采樣后序列可以更好地表示原視頻。



本文詳細(xì)內(nèi)容請(qǐng)下載:http://m.ihrv.cn/resource/share/2000005217




作者信息:

馮雨威,吳麗君

(福州大學(xué) 物理與信息工程學(xué)院,福建 福州350108)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容