《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 设计应用 > 基于多权值神经网络的静态手势字母识别的研究
基于多权值神经网络的静态手势字母识别的研究
来源:微型机与应用2010年第14期
王洪昌
(浙江富阳市技工学校, 浙江 富阳311400)
摘要: 提出了一种基于多权值神经网络模型的静态手势语识别方法。应用手势字母图像圆周极径序列的傅立叶频谱信息来提取特征,再结合多权值神经网络的训练算法与识别算法,实现静态手势字母的识别,并取得了很好的识别效果。
Abstract:
Key words :

摘  要: 提出了一種基于多權(quán)值神經(jīng)網(wǎng)絡(luò)模型的靜態(tài)手勢(shì)語(yǔ)識(shí)別方法。應(yīng)用手勢(shì)字母圖像圓周極徑序列的傅立葉頻譜信息來(lái)提取特征,再結(jié)合多權(quán)值神經(jīng)網(wǎng)絡(luò)的訓(xùn)練算法與識(shí)別算法,實(shí)現(xiàn)靜態(tài)手勢(shì)字母的識(shí)別,并取得了很好的識(shí)別效果。
關(guān)鍵詞: 多權(quán)值神經(jīng)元; 人機(jī)交互手勢(shì)識(shí)別; 手勢(shì)字母

    隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,人機(jī)交互技術(shù)由先前的以計(jì)算機(jī)為中心逐漸向以人為中心轉(zhuǎn)移。人的運(yùn)動(dòng)分析[1]已經(jīng)成為人機(jī)交互和識(shí)別領(lǐng)域中的主要研究方向之一,各種先進(jìn)的人機(jī)交互技術(shù)不斷涌現(xiàn),包括人臉識(shí)別、面部表情識(shí)別、頭部運(yùn)動(dòng)跟蹤、唇讀、手勢(shì)識(shí)別及體語(yǔ)識(shí)別。其中手勢(shì)識(shí)別是一種比較直觀、自然、易于學(xué)習(xí)的交互手段,人們以手直接為計(jì)算機(jī)輸入設(shè)備,省去人機(jī)通信媒體以實(shí)現(xiàn)機(jī)器控制的目的[2];此外,對(duì)手勢(shì)識(shí)別的研究有助于提高計(jì)算機(jī)的人類語(yǔ)言理解水平,加強(qiáng)人機(jī)接口的實(shí)用性,有助于改善與提高聾啞人的生活學(xué)習(xí)條件。目前研究的手勢(shì)識(shí)別系統(tǒng)主要分為基于數(shù)據(jù)手套的和基于視覺(jué)的兩類,前者給使用者帶來(lái)一定程度上的不便,而后者已逐漸成為計(jì)算機(jī)視覺(jué)及人機(jī)交互領(lǐng)域里的一個(gè)研究熱點(diǎn)。由于視覺(jué)本身的不穩(wěn)定性,給識(shí)別算法帶來(lái)挑戰(zhàn)與難度[3]。在基于視覺(jué)手勢(shì)識(shí)別的研究中,識(shí)別較高的多為從手區(qū)的幾何特征來(lái)識(shí)別,如手指、手指方向、手的外廓等。就識(shí)別方法而言,主要有神經(jīng)網(wǎng)絡(luò)[4]、隱馬爾可夫模(HMM)與模板匹配等。GROBEL K和ASSAM M等人從視頻錄像中提取特征,并應(yīng)用HMM技術(shù)識(shí)別262個(gè)孤立詞,正確識(shí)別率達(dá)91.3%[5]。TRIESCH J等人使用彈性曲線匹配的方法,在復(fù)雜背景下實(shí)現(xiàn)手勢(shì)識(shí)別,正確率達(dá)85%,但該算法較為復(fù)雜,計(jì)算量大[6]。
  本文提出應(yīng)用多權(quán)值神經(jīng)網(wǎng)絡(luò)[7-8]方法對(duì)靜態(tài)手勢(shì)進(jìn)行識(shí)別,對(duì)手勢(shì)字母圖像采用傅里葉描述子提取特征信息,取低頻信息成分構(gòu)建成32維特征向量,并應(yīng)用多權(quán)值神經(jīng)網(wǎng)絡(luò)的算法,構(gòu)建各類的神經(jīng)元網(wǎng)絡(luò)對(duì)圖1中的22個(gè)手勢(shì)字母(a,æ , b, c, d, e, f, g, i, k, l, n, o, q, r, s, t, u, v, w, x ,y)共440個(gè)樣本(獨(dú)立測(cè)試集)作識(shí)別研究,正確識(shí)別率達(dá)97.95%,取得了理想的效果。

1 材料與特征提取

    實(shí)驗(yàn)表明,當(dāng)n=32時(shí),即取前32個(gè)諧波分量足以描述手勢(shì)字母的外形輪廓,因此本實(shí)驗(yàn)取前32個(gè)諧波分量作為表征該樣本的特征向量。
2 多權(quán)值神經(jīng)網(wǎng)絡(luò)


2.2 識(shí)別算法

3 實(shí)驗(yàn)與結(jié)果分析
    本研究的數(shù)據(jù)集分訓(xùn)練樣本集與獨(dú)立測(cè)試樣本集,22類手勢(shì)字母,每類40個(gè),共880個(gè)樣本。在識(shí)別過(guò)程中,為研究該識(shí)別模型的識(shí)別能力,將每類訓(xùn)練樣本逐次減少原來(lái)的20%,保留獨(dú)立測(cè)試集不變,如表1所示。

 從識(shí)別結(jié)果上分析,隨著每類訓(xùn)練樣本數(shù)減少,正確識(shí)別率依次下降的幅度比較小。取每類訓(xùn)練樣本數(shù)Num=20時(shí),正確識(shí)別率為97.95%,其余的對(duì)應(yīng)結(jié)果如圖2所示。

    實(shí)驗(yàn)結(jié)果表明,隨著每類訓(xùn)練樣本數(shù)的下降,該模型的正確識(shí)別還保持相對(duì)高的程度,當(dāng)取Num=4時(shí),其對(duì)應(yīng)的正確識(shí)別率為85.45%,這說(shuō)明該模型具備很好的穩(wěn)定性,對(duì)訓(xùn)練樣本數(shù)不很敏感。
 本文研究的手勢(shì)字母識(shí)別特征提取采用傅里葉描述子的方法,因?yàn)樵摲椒ň哂袌D像旋轉(zhuǎn)、平移不變性的特點(diǎn),結(jié)合類似人類認(rèn)知方法的識(shí)別方法,即采用覆蓋思想的識(shí)別機(jī)制[10],取得了很好的識(shí)別效果。實(shí)驗(yàn)證明,該方法在靜態(tài)手勢(shì)字母語(yǔ)識(shí)別問(wèn)題上具有可行性,為手勢(shì)圖像識(shí)別等提供了一種有效的途徑。
參考文獻(xiàn)
[1]   王亮, 胡衛(wèi)明, 譚鐵牛.人運(yùn)動(dòng)的視覺(jué)分析綜述[J].計(jì)算機(jī)學(xué)報(bào), 2002,25(3):225-237.
[2]   鄒晨,張樹有,譚建榮,等. VR環(huán)境中產(chǎn)品設(shè)計(jì)手勢(shì)的定義與合成[J]. 工程圖學(xué)學(xué)報(bào), 2002,21(2):107-110.
[3]   吳江琴, 高文. 基于數(shù)據(jù)手套的漢語(yǔ)手指字母識(shí)別[J]. 模式識(shí)別與人工智能, 1999,12(1):74-78.
[4]   鄧志國(guó). 基于BP神經(jīng)網(wǎng)絡(luò)的靜態(tài)手勢(shì)識(shí)別的方法[J]. 華東交通大學(xué)學(xué)報(bào), 2005, 22(5): 86-88.
[5]   GROBEL K, ASSAM M. Isolated sign language recognition     using hidden markov models[C]. In Proceedings of the IEEE International Conference on Systems,Man and Cybernetics, Orlando, FL, 1997:162-167.
[6]   TRIESCH J, MALSBURG C von der.A system for person  independent hand posture recognition against complex back grounds[J]. IEEE transactions on Pattern Analysis and Machine Intelligence, 2001,23(12):1449-1453.
[7]   王守覺(jué), 李兆洲, 陳向東,等, 通用神經(jīng)網(wǎng)絡(luò)硬件中神經(jīng)元基本數(shù)學(xué)模型的討論[J].電子學(xué)報(bào),2001,29(5): 577-580.
[8]   WANG Shou Jue. A new development on ANN in China-Biomimetic pattern recognition and multi weight vector neurons[J]. Lecture Notes in Artificial Intelligence, 2003, 2639:35-43.
[9]   BIRK H, MOESLUND T B, MADSEN C B. Real-time recognition of hand alphabet gestures using principal component analysis[D]. Master's Thesis, Aalborg University,Danmark,1996.
[10]  OTSU N. A threshold selection method from gray level  histogram[J]. IEEE Transactions on Systems, Man and Cybernetics, 1979,9(1):62-66.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容