123,123

语音信号产生模型的建立及应用

日期： 2009-06-09

作者：王莉华

關(guān)鍵詞： 语音信号语音产生模型数字滤波器特征参数线性预测编码

??? 摘要：從人類語音產(chǎn)生的機(jī)理出發(fā)，介紹了語音信號的特征和語音信號的語譜圖，引出了語音信號的產(chǎn)生模型。同時討論了在語音信號產(chǎn)生的模型應(yīng)用中，線性預(yù)測編碼方法及語音產(chǎn)生模型在語音合成和語音識別中的應(yīng)用原理，體現(xiàn)了語音產(chǎn)生模型在語音處理技術(shù)方面的重要地位。
??? 關(guān)鍵詞：模型；頻率；線性預(yù)測編碼

??? 語音由一連串的音所組成，這些音及其相互間的過渡就是代表信息的符號。這些符號的排列由語音的規(guī)則所控制。對這些規(guī)則及其在人類通信中的含義的研究屬于語言學(xué)的范疇。但對語音信號加以處理以改善或提取信息時，有必要對語音產(chǎn)生的機(jī)理進(jìn)行討論。
??? 圖1為發(fā)音器官示意圖。聲道起始于聲帶的開口(即聲門處)而終止于嘴唇，它包含了咽喉(連接食道和口)和口(或稱為口腔)。聲道的截面積取決于舌、唇、頜以及小舌的位置，它可以從0 (完全閉合)變化到約20 cm²，鼻道則從小舌開始到鼻孔為止。當(dāng)小舌下垂時，鼻道與聲道發(fā)生聲耦合而產(chǎn)生語音中的鼻音。另外，圖中還包含了由肺、支氣管、氣管組成的次聲門系統(tǒng)，這個次聲門系統(tǒng)是產(chǎn)生語音能量的源泉。當(dāng)空氣從肺里呼出時，呼出的氣流由于聲道某一地方的收縮而受到擾動，語音就是這一系統(tǒng)在此時輻射出來的聲波。

??? 語音的聲音按其激勵形式的不同可分為三類：濁音、摩擦音和爆破音。濁音：當(dāng)氣流通過聲門時，如果聲帶的張力剛好使聲帶發(fā)生張弛振蕩式的振動，就能產(chǎn)生準(zhǔn)周期的空氣脈沖，這一空氣脈沖激勵聲道得到濁音，如音標(biāo)中的“U”、“d”、“w”、“i”、“e”等為濁音。摩擦音或稱為清音：如果聲道在某處(一般在接近嘴的那端)發(fā)生收縮，同時迫使空氣以高速沖過這一收縮部分而產(chǎn)生湍流，從而得到摩擦音，此時建立的寬帶噪聲源激勵了聲道，如音標(biāo)中的“∫”就是摩擦音；爆破音：如果使聲道前部完全閉合，在閉合后建立起氣壓，然后突然釋放，這樣就得到了爆破音，如音標(biāo)中的“t∫”就是爆破激勵產(chǎn)生的。
1 語音信號的特征和語譜圖
??? 圖1中聲道和鼻道都表示為非均勻截面的聲管，當(dāng)聲音產(chǎn)生以后就順著聲管傳播，它的頻譜形狀會被聲管的選擇性所改變。這類似于人們在管風(fēng)琴或管樂器中所看到的諧振現(xiàn)象。在此將聲道管的諧振頻率稱為共振峰頻率。共振峰頻率和聲道的形狀與大小有關(guān)，每種形狀都有一套共振峰頻率作為其特征。改變聲道的形狀就產(chǎn)生不同的聲音，因此，當(dāng)聲道形狀改變時，語音信號的譜特性也隨之改變。
??? 語譜圖是通過語譜儀畫出的、以顯示語音信號的通用圖。它的垂直方向表示頻率，水平方向表示時間。圖2表示了一段英語語句的語音信號。

??? 獲得這些圖的原理大致如下：
??? 首先把語音信號拆成短的時段，一般為2 ms～40 ms，然后在合適的窗口長度上使用FFT找每一短時段的頻譜。圖中每一點表示在給定時間和給定頻率范圍內(nèi)頻譜的能量。段的長度是根據(jù)頻率分辨率和時間分辨率要求折中選擇的。目前數(shù)字信號處理技術(shù)水平已能夠?qū)崟r處理語音頻譜隨時間的變化，這就意味著, FFT和顯示處理能夠在下一段數(shù)據(jù)捕獲前完成。例如，采樣頻率為8 kHz(由采樣定理知，信號帶寬的上限為4 kHz)，一段長度內(nèi)有256個采樣點，F(xiàn)FT和顯示處理時間必須小于32 ms。
??? 從英文字“rain”中字母a的實例表明：語音信號有周期的時域波形，如圖2(a)所示；它的頻譜類似于一串有間隔的諧波，如圖2(b)所示。同樣，字“storm”中的字母s的實例表明：摩擦音時域信號為噪聲，如圖2(c)所示，它的頻譜如圖2(d)所示。這個頻譜證明對聲音的2個主要源都存在共振峰頻率的影響。
??? 在圖3中，圖的下半部分是相應(yīng)的語譜圖，語音能量由顏色的深淺來表示，顏色越深，語音能量越強。

??? 由圖3可知，語音樣例“他去無錫市，我到黑龍江”的每一個漢字的發(fā)音對應(yīng)一組頻譜，有其基音和諧波。基音和諧波的寬度不等說明有共振峰頻率的影響。從短時穩(wěn)定的頻譜存在說明語音信號存在短期相關(guān)性，即盡管模擬聲道的數(shù)字濾波器參數(shù)是隨時間改變的，但是在很短的時間(如幾毫秒)內(nèi)，由于存在確定的周期性頻譜，因而可以認(rèn)為，在該段時間內(nèi)，數(shù)字濾波器參數(shù)不隨時間而變化?？梢允褂镁€性預(yù)測方法，即一個語音采樣值能夠由前面若干個采樣值的組合逼近，故稱為線性預(yù)測。因此，每一個漢字語音對應(yīng)一組線性預(yù)測系數(shù)，也就是對應(yīng)一組確定的聲道數(shù)字濾波器系數(shù)。
2? 語音信號的產(chǎn)生模型
??? 根據(jù)上面的分析，可以用近期所有語音合成和識別技術(shù)采用的人類語音模型來模擬語音信號的產(chǎn)生，如圖4所示。

??? 用隨機(jī)噪聲發(fā)生器產(chǎn)生噪聲源模擬摩擦音(漢語稱清音)，利用音調(diào)或稱基音周期控制脈沖串產(chǎn)生器模擬元音(漢語稱濁音)。用增益函數(shù)表示聲音振幅。模擬聲道的數(shù)字濾波器是一個線性時變?yōu)V波器。
3? 線性預(yù)測編碼(LPC)
??? 線性預(yù)測編碼LPC( Line Predictive Coding )方法在語音信號產(chǎn)生模型應(yīng)用中是至關(guān)重要的，下面給出它的物理概念和方法。采樣后的語音是離散信號，可以利用Z變換進(jìn)行分析計算。設(shè)聲道濾波器為一個全極點濾波器，其傳遞函數(shù)為V(z)，則輸出信號為：
??? S(z)=E(z)×V(z)=G×E(z)/A(z)????????????????????????? ?? ?(1)
式中，E(z)為聲道濾波器的激勵e(n)的Z變換；A(z)為聲道濾波器的逆濾波器，是全零點濾波器；G為增益函數(shù)，表示聲音振幅的一個參數(shù)；S(z)為合成的語音。在已知激勵和濾波器參數(shù)后，可得到合成語音，故(1)式稱為合成模型。由(1)式可得：
??? E(z)=S(z)×A(z)???????????????????????????????????????? ??(2)
(2)式為(1)式的逆運算，故稱為語音分析模型。
??? 若逆濾波器為A(z)，輸入語音信號為S(z)，則輸出即為激勵信號E(z)。然而，A(z)是未知的，需要使用線性預(yù)測的方法求得。
??? 因為A(z)是全零點濾波器，其結(jié)構(gòu)如圖5所示。通過證明可得：
???
??? 即A(z)是由M節(jié)濾波器組成，式中i是濾波器的階數(shù)，a_i是逆濾波器的系數(shù)，有待確定。把(3)式代入(2)式，并將Z變換的式子轉(zhuǎn)換為離散值來寫，則有：
???
??? (4)式說明對樣本序列值S(n)，n時刻序列值由它前面M個樣本線性預(yù)測得到。即：
???
??? 同時表示，激勵信號e(n)是語音信號S(n)與預(yù)測信號之差，稱為預(yù)測誤差。(5)式可寫為Z變換形式：
???
式中，F(xiàn)(z)為預(yù)測濾波器值，若輸入A(z)，輸出即為預(yù)測值，見圖5。

??? 可見，這里存在2個濾波器，1個是預(yù)測濾波器F(z)，可用來求預(yù)測值；另一個為逆濾波器，它等于1-F(z)，可用來從激勵信號求出重建的語音信號。使用這2個濾波器關(guān)鍵是求系數(shù)a_i。利用公式(4)，預(yù)測誤差e(n)越小，預(yù)測值越接近信號值S(n)?？刹捎胑(n)的最小均方誤差準(zhǔn)則來確定a_i的系數(shù)。若S(n)已知，在短時間范圍內(nèi)(如20 ms)，在8 kHz采樣頻率下就有160個S(n)樣本點，利用它來訓(xùn)練預(yù)測濾波器A(z)，系數(shù)ai就可以確定。系數(shù)a_i是時變的，但在短的時限內(nèi)是不變的。因此，在線性預(yù)測算法中，系數(shù)a_i的計算每幀都要進(jìn)行1次，當(dāng)前幀系數(shù)a_i計算值作為下一次計算時用。
4? 語音產(chǎn)生模型的應(yīng)用
??? 語音產(chǎn)生模型說明一個短時的語音信號可以用3個參數(shù)來定義：(1)從周期性波和隨機(jī)噪聲中選擇1個作為激發(fā)態(tài)；(2)如果使用周期性波，必須選擇1個頻率作為基音；(3)模擬聲道響應(yīng)所使用的數(shù)字濾波器系數(shù)。
4.1 語音產(chǎn)生模型在語音合成技術(shù)中的應(yīng)用
??? 早期產(chǎn)品中應(yīng)用到的連續(xù)語音合成技術(shù)，是借助于大約以每秒40次速度修改上述的短時語音信號的3個參數(shù)來實現(xiàn)的。如適合兒童學(xué)習(xí)的“說和拼音機(jī)”。由于它僅僅采用26個英文字母作為音庫，因而這種語音合成的聲音質(zhì)量不高，聲音非常機(jī)械。
??? 此后，用漢字語音作為庫，用波形拼接方法進(jìn)行語音合成，效果有所改進(jìn)，但是庫的存儲量太大。解決的方案是，使用語音分析方法，即利用語音產(chǎn)生模型概念，把一個語音信號分解成下列特性參數(shù)：線性預(yù)測系數(shù)(取10個)、基音周期范圍、基音周期數(shù)目(基音持續(xù)時間)和清音存在時間等。根據(jù)ITU-T G.729語音編碼方法，一幀語音信號特征參數(shù)僅需80 bit，即80個16 bit樣本壓縮為80 bit，縮小16倍。到合成需要該音時，再利用語音產(chǎn)生模型由所存的特征參數(shù)實時轉(zhuǎn)換為語音。
4.2 語音產(chǎn)生模型在語音識別技術(shù)中的應(yīng)用
??? 與機(jī)器進(jìn)行語音交流，讓機(jī)器明白你說什么，這是人們長期以來夢寐以求的事情。語音識別技術(shù)就是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。其原理是：由于每一個短時語音信號包含一串語音特性參數(shù)，不同的漢字音有不同的特征參數(shù)，所以利用特征參數(shù)的差別來識別不同的漢字音。
??? 近20年來，語音識別技術(shù)取得顯著進(jìn)步，開始從實驗室走向市場。預(yù)計未來10年內(nèi)，語音識別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等各個領(lǐng)域。
參考文獻(xiàn)
[1] 拉賓納? L R，謝弗? R W. 語音信號數(shù)字處理[M]. 北京：科學(xué)出版社，1983.
[2]?戴逸民，梁曉雯，裴小平. 基于DSP的現(xiàn)代電子系統(tǒng)設(shè)計[M]. 北京：電子工業(yè)出版社，2002.
[3]?奧本海姆. 信號與系統(tǒng)[M]. 劉樹棠，譯 . 西安：西安交通大學(xué)出版社，1998.
[4]?何蘇勤，王忠勇.TMS320C2000系列DSP原理及應(yīng)用技術(shù)[M].北京：電子工業(yè)出版社，2003.

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

语音信号产生模型的建立及应用

日期： 2009-06-09

作者：王莉华

相關(guān)內(nèi)容