摘 要: 提出了一個基于均值近鄰的樣本選擇算法,并且對CMU-PIE人臉數(shù)據(jù)庫數(shù)據(jù)進(jìn)行了樣本選擇,提取關(guān)鍵數(shù)據(jù),結(jié)合神經(jīng)網(wǎng)絡(luò)算法進(jìn)行了分類實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果證明,與傳統(tǒng)方法相比,該方法在保持了一定的準(zhǔn)確率的前提下,能夠有效地減少樣本集中的冗余信息,同時在時間復(fù)雜度方面也有了一定的提升。
關(guān)鍵詞: 樣本選擇;神經(jīng)網(wǎng)絡(luò);均值近鄰;人臉識別
人工神經(jīng)網(wǎng)絡(luò)ANN(Artificial Neural Network)[1],簡稱神經(jīng)網(wǎng)絡(luò)NN(Neural Network),是一種模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的數(shù)學(xué)模型或計(jì)算模型。神經(jīng)網(wǎng)絡(luò)是由大量神經(jīng)元相互連接,通過模仿人腦或生物結(jié)構(gòu)及其功能進(jìn)行信息并行處理和非線性轉(zhuǎn)換的復(fù)雜網(wǎng)絡(luò)系統(tǒng)。隨著機(jī)器學(xué)習(xí)的快速發(fā)展,如今神經(jīng)網(wǎng)絡(luò)的應(yīng)用已經(jīng)滲透到眾多領(lǐng)域中,例如在智能控制、信號處理、模式識別和系統(tǒng)辨識等領(lǐng)域都得到了廣泛的應(yīng)用與發(fā)展。神經(jīng)網(wǎng)絡(luò)技術(shù)能夠較好地實(shí)現(xiàn)人類對知識的存儲以及對信息處理的能力,對所需解決的問題進(jìn)行從記憶到聯(lián)想再到推理的過程,因此可以較好地解決人臉識別中的分類問題。然而對于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)而言,其在實(shí)際的應(yīng)用過程中往往存在過擬合以及局部最優(yōu)等缺點(diǎn),因此也限制了神經(jīng)網(wǎng)絡(luò)更廣泛的應(yīng)用。
樣本[2]在神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)中占有非常重要的地位,網(wǎng)絡(luò)的性能與訓(xùn)練樣本的選擇是密切相關(guān)的。樣本集是否具有代表性,是否具有合理性,直接決定了網(wǎng)絡(luò)的學(xué)習(xí)效果。通常人們直觀地認(rèn)為訓(xùn)練數(shù)據(jù)越多,一般越能準(zhǔn)確反映數(shù)據(jù)內(nèi)在之間的規(guī)律,然而在實(shí)際問題中,樣本數(shù)據(jù)的采集與整理總會受到各種客觀因素的制約,使得樣本不一定能達(dá)到預(yù)計(jì)的效果。人們往往普遍把注意力放在大規(guī)模樣本庫的建立上,想要盡可能多地增加樣本的數(shù)量,但是卻忽視了當(dāng)樣本數(shù)據(jù)過大的情況下,訓(xùn)練集中的樣本會出現(xiàn)冗余的問題。而這些冗余的數(shù)據(jù)有可能會讓神經(jīng)網(wǎng)絡(luò)產(chǎn)生局部最優(yōu)的問題,從而影響到識別率。
因此如果在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)之前,對學(xué)習(xí)數(shù)據(jù)進(jìn)行合理科學(xué)的樣本選擇,剔除無關(guān)樣本,從而能夠提高學(xué)習(xí)算法的效率與最終的識別率。
1 樣本選擇算法
1.1 傳統(tǒng)樣本選擇的算法
關(guān)于樣本選擇的方法,當(dāng)下有很多種選擇。傳統(tǒng)的樣本選擇的方法主要分為以下幾種[3]。
?、挪捎煤唵蔚碾S機(jī)選擇的方法來選擇樣本數(shù)據(jù),對于這種方法而言,隨機(jī)的分類存在強(qiáng)烈的不確定性,因此不可能保證最終生成的樣本具有代表性。這種方法一般只用于樣本數(shù)量過于龐大不利于其他方法操作的情況。
?、撇捎萌斯みx擇的方法來選擇樣本數(shù)據(jù),該方法存在個人的主觀性以及不穩(wěn)定性,特別是對于大型數(shù)據(jù)而言,該方法基本起不到任何作用。這種情況一般用于樣本數(shù)較少且比較直觀的數(shù)據(jù),用于直接剔除無關(guān)數(shù)據(jù)。
?、橇硗?,就是通過一個優(yōu)化算法從眾多備選子集中搜索訓(xùn)練集的最佳或近似最佳代表子集。優(yōu)化算法每搜索到一個訓(xùn)練集的代表性子集就把它傳遞給分類器,分類器再返回用該子集作為訓(xùn)練集,并將該分類的結(jié)果回饋給優(yōu)化算法[4]。重復(fù)這一過程,直到樣本選擇模型找到一個近似最優(yōu)樣本子集。最后便使用該子集作為訓(xùn)練樣本。通常優(yōu)化算法可以選擇遺傳算法、模擬退火算法等,而這種方法的優(yōu)勢是數(shù)據(jù)準(zhǔn)確,但同時耗時較大。如果可以在可接受范圍內(nèi)損失一定的精度但是能大幅減小消耗時間,將是一種更好的方法。
1.2 基于均值近鄰的樣本選擇算法
基于均值近鄰的樣本選擇算法NMSS(Neighbor Mean Sample Selection)就是在待選擇的訓(xùn)練樣本中,計(jì)算樣本的均值,將距離該均值最近的樣本作為選中樣本。再將距離該選中樣本閾值范圍內(nèi)的樣本都移動到一個空集記為待定集,并在原訓(xùn)練集中刪除這些樣本。通過不斷迭代重新選擇新的選中樣本,直到訓(xùn)練集中的樣本數(shù)滿足預(yù)先設(shè)定的所需個數(shù)或再無閾值內(nèi)可移動的樣本。如若最終訓(xùn)練集中的樣本數(shù)小于設(shè)定個數(shù),則將待定集當(dāng)作樣本集繼續(xù)迭代選擇,最終所有樣本集的集合就是選中的樣本。
1.2.1 巴氏距離
樣本之間的關(guān)系的量化可以通過類似于信息熵的指標(biāo)來作為衡量的標(biāo)準(zhǔn),例如Golub T R等人采用“信噪比”來衡量基因貢獻(xiàn)的度量[5],對此,Golub T R等人對信噪比的定義如下:
其中d代表信噪比,μ1和μ2分別代表兩個樣本在樣本集中表達(dá)水平的均值,σ1和σ2為這兩個樣本在樣本集中表達(dá)水平的標(biāo)準(zhǔn)差。
但對于這種情況,當(dāng)兩個樣本的均值相等時候,標(biāo)準(zhǔn)差方面的差異就不能被表現(xiàn)出來。因此,選用巴氏距離作為衡量的標(biāo)準(zhǔn)[6]。在此,巴氏距離的定義如下:
由式(2)可知,巴氏距離既考慮到樣本中的均值,也考慮到樣本的方差分布,可以更全面的考慮樣本之間的關(guān)系。因此NMSS算法選擇用巴氏距離作為樣本之間的衡量標(biāo)準(zhǔn)。
1.2.2 基于均值近鄰的樣本選擇算法
綜上所述,NMSS算法的流程如圖1所示。
?、懦跏蓟?。設(shè)定所需選擇的樣本個數(shù)為,選擇閾值為
,初始的樣本均值向量為μ0,初始的樣本集為
,初始的待定集為空集
。
?、朴?jì)算樣本集中樣本與μ0的巴式距離,并在樣本集中搜索最小距離Bmin,將其所對應(yīng)的第k個樣本記為選中樣本XS。計(jì)算選中樣本與其余p-1個樣本的巴式距離
, 若
,則將相對應(yīng)的樣本由樣本集S中移動到待定集G。
?、侨绻麩o任何樣本使得,或待定集G中的樣本數(shù)q<0,則退出。否則重復(fù)第二步。
1.2.3 傳統(tǒng)方法與NMSS算法
與傳統(tǒng)的通過最優(yōu)解的樣本選擇方法相比較,NMSS算法以樣本之間的巴氏距離作為衡量的標(biāo)準(zhǔn),從近鄰樣本中選取少量樣本當(dāng)作一組代表樣本。而傳統(tǒng)的通過最優(yōu)解的樣本選擇方法則需要通過算法計(jì)算最優(yōu)解并帶回到分類器中進(jìn)行反復(fù)迭代測試之后才能找到滿足要求的樣本集。因此在可接受的精度的損失情況下,NMSS算法能夠大幅提高算法效率并減少耗時。
2 實(shí)驗(yàn)結(jié)果分析
人臉識別已經(jīng)逐漸成為模式識別研究中的一個重大熱點(diǎn)[7],如今有很多用于人臉識別的相關(guān)算法,如何能夠提高人臉識別的效率與準(zhǔn)確率成為人們更加熱衷的研究點(diǎn)。
本文在此通過人臉識別的實(shí)驗(yàn)來驗(yàn)證以上算法提出對識別效率與準(zhǔn)確率的提高作用。在本次實(shí)驗(yàn)中,選擇由美國卡耐基梅隆大學(xué)創(chuàng)建的CMU-PIE人臉數(shù)據(jù)庫。該數(shù)據(jù)庫包含68位志愿者的41 368張面部圖像。在此本文選擇其中的10位志愿者的圖像,每個人包含340張不同姿態(tài)、不同光照和角度的圖像。存為PGM格式,尺寸為200×200。
實(shí)驗(yàn)是在CPU為 Core 2 2.26 GHz,內(nèi)存為 4 GB DDR2的PC機(jī)上進(jìn)行的。將樣本圖片尺寸壓縮為32×32,并轉(zhuǎn)存為MAT格式。再通過PCA算法[8]進(jìn)行降維,提取特征數(shù)據(jù)。最后神經(jīng)網(wǎng)絡(luò)部分是通過Matlab的神經(jīng)網(wǎng)絡(luò)工具箱來實(shí)現(xiàn)的。
實(shí)驗(yàn)中,將CMU-PIE人臉數(shù)據(jù)庫選用的3 400張圖像依據(jù)每人選取170張隨機(jī)分為兩組,每組共計(jì)1 700張,其中一組作為訓(xùn)練樣本,另一組作為測試樣本。
首先按照本文之前所描述的NMSS算法,通過計(jì)算得到一個選中樣本,然后將實(shí)驗(yàn)設(shè)置的樣本選擇個數(shù)從每類別第2個開始,并逐次增加。對于不同的選樣個數(shù),分別統(tǒng)計(jì)選樣率,以及測試識別率和測試時間。當(dāng)測試識別率趨于穩(wěn)定且達(dá)到較高數(shù)值時,停止實(shí)驗(yàn)。最終匯總以上實(shí)驗(yàn)數(shù)據(jù),實(shí)驗(yàn)結(jié)果如表 1所示。
其中選樣率=(被選中的訓(xùn)練樣本個數(shù)/訓(xùn)練樣本的總數(shù)) 100%;識別率=(測試樣本中識別正確的樣本個數(shù)/測試樣本的總數(shù)) 100%。實(shí)驗(yàn)的數(shù)據(jù)是通過10次實(shí)驗(yàn)數(shù)據(jù),進(jìn)行均值計(jì)算而得到的。
通過表 1 中所顯示的實(shí)驗(yàn)結(jié)果可以得到,隨著樣本選擇個數(shù)的增加,識別率是有一定的提高的。當(dāng)選擇的學(xué)習(xí)樣本數(shù)達(dá)到12個樣本的時候,測試識別率就可以達(dá)到100%,并形成一個穩(wěn)定狀態(tài)。與總計(jì)的170個樣本相比,選樣率只占了7.1%,直選用了較少的樣本,在此不難看出,樣本選擇的效率還是很高的。相比較通過實(shí)驗(yàn)所得的最小樣本數(shù),選樣個數(shù)和識別率都很接近,因此只要選擇適當(dāng)?shù)拈撝?,就可以直接得出適合的樣本個數(shù)。
除此之外,在未使用樣本選擇的情況下進(jìn)行實(shí)驗(yàn),即學(xué)習(xí)樣本為1 700個的完整樣本集,并通過以上實(shí)驗(yàn)所得的結(jié)果,再選用隨機(jī)方式選擇了120個訓(xùn)練樣本并且選用了相同的1 700個測試樣本,得到的對比數(shù)據(jù)如表2所示。
通過表 2 中所顯示的實(shí)驗(yàn)對比結(jié)果可以得到,隨機(jī)方式選擇樣本所得到的結(jié)果在識別率方面差強(qiáng)人意。而完整樣本所得的結(jié)果在耗時上遠(yuǎn)大于本文方法所需時間,而且也需要更多的存儲空間。對于NMSS方法,樣本選擇的耗時較小僅為0.501 s,并且識別率能達(dá)到100%。
因此通過表1和表2的實(shí)驗(yàn)結(jié)果可以證明本文所提出的基于均值近鄰的樣本選擇算法用于學(xué)習(xí)算法之前的樣本選擇,是有較好的效果的。
同時,如何設(shè)省略用戶設(shè)定的閾值以減少個人主觀因素對算法的影響,增加自適應(yīng)的相關(guān)系數(shù),以及對樣本選擇的評價是下一步將要做的工作。
本文考慮到在對于大量數(shù)據(jù)進(jìn)行分類時,首先進(jìn)行一種在犧牲一定精度的情況下的快速樣本選擇,因而提出了基于均值近鄰的樣本選擇算法。并且通過CMU-PIE人臉數(shù)據(jù)庫的實(shí)驗(yàn)進(jìn)行了驗(yàn)證,其可以有效地提高訓(xùn)練速度,節(jié)省空間,同時保證較高的識別率。該方法不僅適合于神經(jīng)網(wǎng)絡(luò),也可以向其他分類方法或機(jī)器學(xué)習(xí)方法擴(kuò)展與延伸。
參考文獻(xiàn):
[1] 賈光峰. 基于多表達(dá)式編程的神經(jīng)網(wǎng)絡(luò)自動優(yōu)化方法及其應(yīng)用研究[D].濟(jì)南:濟(jì)南大學(xué),2009
[2] Aroonsri Nuchitprasittichai,Selen Cremaschi. An algorithm to determine sample sizes for optimization with artificial neural networks[J]. AIChE J,2012: 593.
[3] 周曉飛,姜文瀚,楊靜宇. 基于子空間樣本選擇的最近凸包類器[J]. 計(jì)算機(jī)工程,2008(12):167-168,171.
[4] 姜文瀚. 模式識別中的樣本選擇研究及其應(yīng)用[D].南京:南京理工大學(xué),2008.
[5] Golub T R, Slonim DK,Tamayo P.Molecular classification of cancer: class discovery and class prediction by gene expression monitoring[J]. Science, 1999, 286(5439): 531-537.
[6] Theodoridis S, Koutroumbas K. Patter recognition [M]. Second Edition, NewYork:Academic Press, 2003.
[7] Samal A, Iyengar P A. Automatic recognition and analysis of human faces and facial expressions: a Survey[J]. Pattern Recognition, 1992, 25(1): 65-77
[8] 伊力哈木?亞爾買買提. 基于改進(jìn)型PCA和LDA融合算法的人臉圖像識別[J]. 計(jì)算機(jī)仿真,2013(1):415-418,426.