《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 设计应用 > 基于DenseNet和深度运动图的行为识别算法
基于DenseNet和深度运动图的行为识别算法
2020年信息技术与网络安全第1期
张健,张永辉,何京璇
(海南大学,海南 海口 570228)
摘要: 结合深度信息以及RGB视频序列中丰富的纹理信息,提出了一种基于DenseNet和深度运动图像的人体行为识别算法。该算法基于DenseNet网络结构,首先获取彩色纹理信息和光流信息,然后从同步的深度视频序列获取深度信息,以增强特征互补性;再将空间流、时间流和深度流三种特征信息分别作为网络的输入;最后通过LSTMs进行特征融合和行为分类。实验结果表明,在公开的动作识别库UTDMHAD数据集上,该算法识别准确率为 92.11%,与该领域中的同类算法相比表现优异。
中圖分類(lèi)號(hào):TP391.4
文獻(xiàn)標(biāo)識(shí)碼:A
DOI: 10.19358/j.issn.2096-5133.2020.01.012
引用格式:張健,張永輝,何京璇?;贒enseNet和深度運(yùn)動(dòng)圖的行為識(shí)別算法[J]。信息技術(shù)與網(wǎng)絡(luò)安全,2020,39(1):63-69.
Action recognition algorithm based on DenseNet and depth motion map
Zhang Jian,Zhang Yonghui,He Jingxuan
(Hainan University,Haikou 570228,China)
Abstract: This paper proposes a human behavior recognition algorithm based on DenseNet and DMM,which integrates depth information and rich texture information in RGB video sequence.Based on the DenseNet network structure,the algorithm firstly obtains color texture information and optical flow information,and then obtains depth information from synchronous depth video sequence to enhance feature complementarity.Three kinds of characteristic information are used as the input of spatial flow network,temporal flow network and deep flow network.Then LSTMs is used for feature fusion and behavior classification.Experimental results show that the recognition rate of UTDMHAD data set is 92.11%,which is an excellent performance compared with similar algorithms in this field.
Key words : action recognition;depth motion maps;DenseNet;optical flow

0     引言

  近年來(lái),有關(guān)人體行為識(shí)別的研究層出不窮,現(xiàn)如今已成為計(jì)算機(jī)視覺(jué)研究中日益關(guān)注的熱點(diǎn)。其中,對(duì)視頻中目標(biāo)的行為識(shí)別一直以來(lái)都是一個(gè)非?;钴S的研究領(lǐng)域。雖然在對(duì)于靜止圖像識(shí)別的研究上取得了很大的成功,但是對(duì)視頻類(lèi)的行為識(shí)別如今仍是一個(gè)富有挑戰(zhàn)性的課題。

  在行為識(shí)別領(lǐng)域中,卷積神經(jīng)網(wǎng)絡(luò)得到了廣泛的應(yīng)用。早期的研究人員主要嘗試融合光流與RGB視頻幀來(lái)提高行為識(shí)別準(zhǔn)確率。RGB視頻內(nèi)的細(xì)節(jié)信息非常豐富,但缺乏深度信息,其識(shí)別準(zhǔn)確率常常受光照變化、陰影、物體遮擋等因素的干擾。如文獻(xiàn)[2]在2014年首次提出了創(chuàng)造性的雙流網(wǎng)絡(luò),通過(guò)從RGB視頻序列提取時(shí)空信息進(jìn)行識(shí)別;文獻(xiàn)[3]用基于長(zhǎng)短期記憶的多尺度卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取多層次表觀特征,從而學(xué)習(xí)長(zhǎng)周期的高層時(shí)空特征;文獻(xiàn)[4]使用在ImageNet上進(jìn)行預(yù)訓(xùn)練的DenseNet來(lái)搭建雙流卷積神經(jīng)網(wǎng)絡(luò),從中提取空間和時(shí)間特征,然后微調(diào)來(lái)進(jìn)行單幀活動(dòng)預(yù)測(cè)。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://m.ihrv.cn/resource/share/2000003117





作者信息:

張健,張永輝,何京璇

(海南大學(xué),海南 ???570228)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。