123,123

一种改进型HMM说话人识别算法

来源：微型机与应用2012年第21期

陶洁，张会林

（上海理工大学光电信息与计算机工程学院，上海 200090）

摘要： 针对Baum-Welch算法依赖于初始值的选取而容易陷入局部最优解的问题，基于全局优化的思想，提出了一种改进的HMM语音识别算法。该算法将遗传算法应用到HMM模型训练中，得到了全局最优解。实验结果表明，所提出的算法使用有效，识别率显著提高。

關(guān)鍵詞： 软件遗传算法 HMM模型语音识别

Abstract：

Key words :

摘要： 針對Baum-Welch算法依賴于初始值的選取而容易陷入局部最優(yōu)解的問題，基于全局優(yōu)化的思想，提出了一種改進(jìn)的HMM語音識別算法。該算法將遺傳算法應(yīng)用到HMM模型訓(xùn)練中，得到了全局最優(yōu)解。實驗結(jié)果表明，所提出的算法使用有效，識別率顯著提高。
關(guān)鍵詞： 遺傳算法；HMM模型；語音識別

　近年來，隨著語音識別技術(shù)的不斷發(fā)展，語音識別系統(tǒng)的性能不斷提高，隱馬爾可夫模型方法是當(dāng)中的一個主要識別方法。語音識別系統(tǒng)的識別率十分依賴于模型的訓(xùn)練，而經(jīng)典的訓(xùn)練算法（Baum-Welch算法）有一個致命的弱點，即最終所得的解十分依賴于初始值的選取，所以總是局部最優(yōu)解，影響了整個系統(tǒng)的識別率。本文將遺傳算法植入HMM模型參數(shù)的優(yōu)化當(dāng)中，使得整個語音識別系統(tǒng)的識別效果大大改善。
1 遺傳算法
　遺傳算法將自然界的生物進(jìn)化原理引入待優(yōu)化參數(shù)形成的編碼串聯(lián)群體中，按所選擇的適應(yīng)度函數(shù)通過遺傳中的復(fù)制、交叉及變異對個體進(jìn)行篩選，使得適應(yīng)度高的個體被保留下來，組成新的群體。通過不斷迭代，保留下的個體適應(yīng)度不斷提高，直到滿足一定的條件。從數(shù)學(xué)的角度解釋，可以簡單地認(rèn)為，基因重組使子代基因趨向于局部最優(yōu)解，而基因變異能使子代基因突破局部范疇，經(jīng)過多代的交叉和變異，達(dá)到全局最優(yōu)解。
　根據(jù)待優(yōu)化問題的數(shù)學(xué)模型，定義適應(yīng)度函數(shù)F（ai），其中ai為其中的一條染色體，則F（ai）就是判斷該染色體優(yōu)劣的依據(jù)。對于每一代基因，計算所有染色體的適應(yīng)度函數(shù)，進(jìn)行排序，選擇一定數(shù)目的優(yōu)秀染色體，用于產(chǎn)生子代的父代樣本。
　復(fù)制操作只能從舊種群中選擇出較優(yōu)秀的染色體，但是不能創(chuàng)造出新的染色體。交叉操作模擬了生物進(jìn)化過程中的交配過程，通過兩條染色體的分離重組，產(chǎn)生新的優(yōu)良物種。圖1為多點交叉重組的示意圖。交叉過程為：在匹配池中任選兩條染色體，隨機(jī)選擇一點或多點交換點，然后交換雙親染色體交換點右邊的部分，即可得到兩條新的子代染色體。
　最佳基因是在一代一代的基因重組和基因變異中產(chǎn)生的?；蛲蛔冇脕砟M生物在自然的遺傳環(huán)境中由于各種偶然因素引起的變異突變，它以很小的概率隨機(jī)地改變?nèi)旧w編碼串中的某一位。變異算法有利于局部最優(yōu)處跳出，防止算法過早地收斂。
　遺傳算法的具體實現(xiàn)步驟如下：
?。?）隨機(jī)產(chǎn)生最初的染色體群體p={a1，a2，…，aL}，ai為其中的一條染色體。
?。?）計算各個染色體的適應(yīng)度函數(shù)F（ai），并對適應(yīng)度函數(shù)F（ai）進(jìn)行排序，根據(jù)設(shè)定的門限選取一定數(shù)目的優(yōu)秀染色體作為產(chǎn)生子代染色體的父代樣本。
　（3）以一點或多點交叉產(chǎn)生新的子代染色體，交叉點隨機(jī)生成。
?。?）設(shè)定變異概率門限，根據(jù)生成的隨機(jī)數(shù)決定染色體中的某個變量是否有突變發(fā)生。
2 HMM說話人識別系統(tǒng)
　識別主要有兩個任務(wù)：一個是對每個HMM模型的訓(xùn)練，也就是計算HMM參數(shù)；另一個是識別任務(wù)，也就是已知了參考模型的HMM參數(shù)，決定未知模式與哪個參考模式是最佳匹配。訓(xùn)練采用Baum-Welch算法，識別采用Viterbi算法。

4 實驗結(jié)果分析
　實驗基于HMM進(jìn)行語音識別，訓(xùn)練數(shù)據(jù)取自10人，在不同SNR下獲取語音數(shù)據(jù)，時間長度為5 s，采樣率為8 kHz，A/D轉(zhuǎn)換精度為16 bit，單聲道。遺傳算法的優(yōu)化過程中適應(yīng)度函數(shù)F的變化過程如圖3所示。語音識別系統(tǒng)識別結(jié)果如表1所示。

　表1中，系統(tǒng)I為基于HMM的語音識別系統(tǒng)，系統(tǒng)II為基于遺傳算法改進(jìn)的HMM語音識別系統(tǒng)。從實驗結(jié)果可以看出，基于遺傳算法改進(jìn)的HMM模型對語音識別率有較大改善，平均提高了4~5個百分點。
　本應(yīng)用基于HMM語音識別算法，結(jié)合遺傳算法進(jìn)行HMM模型訓(xùn)練并將其應(yīng)用于到語音識別中。經(jīng)過實際驗證，計算簡單，效果好，基本達(dá)到了設(shè)計目的和現(xiàn)實要求。
參考文獻(xiàn)
[1] 張思才，張方曉.一種遺傳算法適應(yīng)度函數(shù)的改進(jìn)方法[J].計算機(jī)應(yīng)用與軟件，2011，23（2）：108-110.
[2] MANIEZZO V. Genetic evolution of the topology and weight distribution of neural networks[J]. IEEE Transactions on Neural Networks， 1994， 5（6）：900~909.
[3] TERASHIMA R， YOSHIMURA T， WAKITA T． Prediction method of speech recognition performance based on HMM-based speech synthesis technique[J]． IEEE Transactions on Electronics， Information and Systems，2010，130： 557-564．
[4] 胡廣書. 現(xiàn)代信號處理教程[M].北京：清華大學(xué)出版社，2004.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容