《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 业界动态 > 语音信号产生模型的建立及应用

语音信号产生模型的建立及应用

2009-06-09
作者:王莉华

??? 摘 要:從人類語(yǔ)音產(chǎn)生的機(jī)理出發(fā),介紹了語(yǔ)音信號(hào)的特征和語(yǔ)音信號(hào)的語(yǔ)譜圖,引出了語(yǔ)音信號(hào)的產(chǎn)生模型。同時(shí)討論了在語(yǔ)音信號(hào)產(chǎn)生的模型應(yīng)用中,線性預(yù)測(cè)編碼方法及語(yǔ)音產(chǎn)生模型在語(yǔ)音合成和語(yǔ)音識(shí)別中的應(yīng)用原理,體現(xiàn)了語(yǔ)音產(chǎn)生模型在語(yǔ)音處理技術(shù)方面的重要地位。
??? 關(guān)鍵詞:模型;頻率;線性預(yù)測(cè)編碼

?

??? 語(yǔ)音由一連串的音所組成,這些音及其相互間的過(guò)渡就是代表信息的符號(hào)。這些符號(hào)的排列由語(yǔ)音的規(guī)則所控制。對(duì)這些規(guī)則及其在人類通信中的含義的研究屬于語(yǔ)言學(xué)的范疇。但對(duì)語(yǔ)音信號(hào)加以處理以改善或提取信息時(shí),有必要對(duì)語(yǔ)音產(chǎn)生的機(jī)理進(jìn)行討論。
??? 圖1為發(fā)音器官示意圖。聲道起始于聲帶的開口(即聲門處)而終止于嘴唇,它包含了咽喉(連接食道和口)和口(或稱為口腔)。聲道的截面積取決于舌、唇、頜以及小舌的位置,它可以從0 (完全閉合)變化到約20 cm2,鼻道則從小舌開始到鼻孔為止。當(dāng)小舌下垂時(shí),鼻道與聲道發(fā)生聲耦合而產(chǎn)生語(yǔ)音中的鼻音。另外,圖中還包含了由肺、支氣管、氣管組成的次聲門系統(tǒng),這個(gè)次聲門系統(tǒng)是產(chǎn)生語(yǔ)音能量的源泉。當(dāng)空氣從肺里呼出時(shí),呼出的氣流由于聲道某一地方的收縮而受到擾動(dòng),語(yǔ)音就是這一系統(tǒng)在此時(shí)輻射出來(lái)的聲波。

?


??? 語(yǔ)音的聲音按其激勵(lì)形式的不同可分為三類:濁音、摩擦音和爆破音。濁音:當(dāng)氣流通過(guò)聲門時(shí),如果聲帶的張力剛好使聲帶發(fā)生張弛振蕩式的振動(dòng),就能產(chǎn)生準(zhǔn)周期的空氣脈沖,這一空氣脈沖激勵(lì)聲道得到濁音,如音標(biāo)中的“U”、“d”、“w”、“i”、“e”等為濁音。摩擦音或稱為清音:如果聲道在某處(一般在接近嘴的那端)發(fā)生收縮,同時(shí)迫使空氣以高速?zèng)_過(guò)這一收縮部分而產(chǎn)生湍流,從而得到摩擦音,此時(shí)建立的寬帶噪聲源激勵(lì)了聲道,如音標(biāo)中的“∫”就是摩擦音;爆破音:如果使聲道前部完全閉合,在閉合后建立起氣壓,然后突然釋放,這樣就得到了爆破音,如音標(biāo)中的“t∫”就是爆破激勵(lì)產(chǎn)生的。
1 語(yǔ)音信號(hào)的特征和語(yǔ)譜圖
??? 圖1中聲道和鼻道都表示為非均勻截面的聲管,當(dāng)聲音產(chǎn)生以后就順著聲管傳播,它的頻譜形狀會(huì)被聲管的選擇性所改變。這類似于人們?cè)诠茱L(fēng)琴或管樂(lè)器中所看到的諧振現(xiàn)象。在此將聲道管的諧振頻率稱為共振峰頻率。共振峰頻率和聲道的形狀與大小有關(guān),每種形狀都有一套共振峰頻率作為其特征。改變聲道的形狀就產(chǎn)生不同的聲音,因此,當(dāng)聲道形狀改變時(shí),語(yǔ)音信號(hào)的譜特性也隨之改變。
??? 語(yǔ)譜圖是通過(guò)語(yǔ)譜儀畫出的、以顯示語(yǔ)音信號(hào)的通用圖。它的垂直方向表示頻率,水平方向表示時(shí)間。圖2表示了一段英語(yǔ)語(yǔ)句的語(yǔ)音信號(hào)。

?


??? 獲得這些圖的原理大致如下:
??? 首先把語(yǔ)音信號(hào)拆成短的時(shí)段,一般為2 ms~40 ms,然后在合適的窗口長(zhǎng)度上使用FFT找每一短時(shí)段的頻譜。圖中每一點(diǎn)表示在給定時(shí)間和給定頻率范圍內(nèi)頻譜的能量。段的長(zhǎng)度是根據(jù)頻率分辨率和時(shí)間分辨率要求折中選擇的。目前數(shù)字信號(hào)處理技術(shù)水平已能夠?qū)崟r(shí)處理語(yǔ)音頻譜隨時(shí)間的變化,這就意味著, FFT和顯示處理能夠在下一段數(shù)據(jù)捕獲前完成。例如,采樣頻率為8 kHz(由采樣定理知,信號(hào)帶寬的上限為4 kHz),一段長(zhǎng)度內(nèi)有256個(gè)采樣點(diǎn),F(xiàn)FT和顯示處理時(shí)間必須小于32 ms。
??? 從英文字“rain”中字母a的實(shí)例表明:語(yǔ)音信號(hào)有周期的時(shí)域波形,如圖2(a)所示;它的頻譜類似于一串有間隔的諧波,如圖2(b)所示。同樣,字“storm”中的字母s的實(shí)例表明:摩擦音時(shí)域信號(hào)為噪聲,如圖2(c)所示,它的頻譜如圖2(d)所示。這個(gè)頻譜證明對(duì)聲音的2個(gè)主要源都存在共振峰頻率的影響。
??? 在圖3中,圖的下半部分是相應(yīng)的語(yǔ)譜圖,語(yǔ)音能量由顏色的深淺來(lái)表示,顏色越深,語(yǔ)音能量越強(qiáng)。

?


??? 由圖3可知,語(yǔ)音樣例“他去無(wú)錫市,我到黑龍江”的每一個(gè)漢字的發(fā)音對(duì)應(yīng)一組頻譜,有其基音和諧波?;艉椭C波的寬度不等說(shuō)明有共振峰頻率的影響。從短時(shí)穩(wěn)定的頻譜存在說(shuō)明語(yǔ)音信號(hào)存在短期相關(guān)性,即盡管模擬聲道的數(shù)字濾波器參數(shù)是隨時(shí)間改變的,但是在很短的時(shí)間(如幾毫秒)內(nèi),由于存在確定的周期性頻譜,因而可以認(rèn)為,在該段時(shí)間內(nèi),數(shù)字濾波器參數(shù)不隨時(shí)間而變化??梢允褂镁€性預(yù)測(cè)方法,即一個(gè)語(yǔ)音采樣值能夠由前面若干個(gè)采樣值的組合逼近,故稱為線性預(yù)測(cè)。因此,每一個(gè)漢字語(yǔ)音對(duì)應(yīng)一組線性預(yù)測(cè)系數(shù),也就是對(duì)應(yīng)一組確定的聲道數(shù)字濾波器系數(shù)。
2? 語(yǔ)音信號(hào)的產(chǎn)生模型
??? 根據(jù)上面的分析,可以用近期所有語(yǔ)音合成和識(shí)別技術(shù)采用的人類語(yǔ)音模型來(lái)模擬語(yǔ)音信號(hào)的產(chǎn)生,如圖4所示。

?

?

??? 用隨機(jī)噪聲發(fā)生器產(chǎn)生噪聲源模擬摩擦音(漢語(yǔ)稱清音),利用音調(diào)或稱基音周期控制脈沖串產(chǎn)生器模擬元音(漢語(yǔ)稱濁音)。用增益函數(shù)表示聲音振幅。模擬聲道的數(shù)字濾波器是一個(gè)線性時(shí)變?yōu)V波器。
3? 線性預(yù)測(cè)編碼(LPC)
??? 線性預(yù)測(cè)編碼LPC( Line Predictive Coding )方法在語(yǔ)音信號(hào)產(chǎn)生模型應(yīng)用中是至關(guān)重要的,下面給出它的物理概念和方法。采樣后的語(yǔ)音是離散信號(hào),可以利用Z變換進(jìn)行分析計(jì)算。設(shè)聲道濾波器為一個(gè)全極點(diǎn)濾波器,其傳遞函數(shù)為V(z),則輸出信號(hào)為:
??? S(z)=E(z)×V(z)=G×E(z)/A(z)????????????????????????? ?? ?(1)
式中,E(z)為聲道濾波器的激勵(lì)e(n)的Z變換;A(z)為聲道濾波器的逆濾波器,是全零點(diǎn)濾波器;G為增益函數(shù),表示聲音振幅的一個(gè)參數(shù);S(z)為合成的語(yǔ)音。在已知激勵(lì)和濾波器參數(shù)后,可得到合成語(yǔ)音,故(1)式稱為合成模型。由(1)式可得:
??? E(z)=S(z)×A(z)???????????????????????????????????????? ??(2)
(2)式為(1)式的逆運(yùn)算,故稱為語(yǔ)音分析模型。
??? 若逆濾波器為A(z),輸入語(yǔ)音信號(hào)為S(z),則輸出即為激勵(lì)信號(hào)E(z)。然而,A(z)是未知的,需要使用線性預(yù)測(cè)的方法求得。
??? 因?yàn)锳(z)是全零點(diǎn)濾波器,其結(jié)構(gòu)如圖5所示。通過(guò)證明可得:
???
??? 即A(z)是由M節(jié)濾波器組成,式中i是濾波器的階數(shù),ai是逆濾波器的系數(shù),有待確定。把(3)式代入(2)式,并將Z變換的式子轉(zhuǎn)換為離散值來(lái)寫,則有:
???
??? (4)式說(shuō)明對(duì)樣本序列值S(n),n時(shí)刻序列值由它前面M個(gè)樣本線性預(yù)測(cè)得到。即:
???
??? 同時(shí)表示,激勵(lì)信號(hào)e(n)是語(yǔ)音信號(hào)S(n)與預(yù)測(cè)信號(hào)之差,稱為預(yù)測(cè)誤差。(5)式可寫為Z變換形式:
???
式中,F(xiàn)(z)為預(yù)測(cè)濾波器值,若輸入A(z),輸出即為預(yù)測(cè)值,見圖5。

?

?

??? 可見,這里存在2個(gè)濾波器,1個(gè)是預(yù)測(cè)濾波器F(z),可用來(lái)求預(yù)測(cè)值;另一個(gè)為逆濾波器,它等于1-F(z),可用來(lái)從激勵(lì)信號(hào)求出重建的語(yǔ)音信號(hào)。使用這2個(gè)濾波器關(guān)鍵是求系數(shù)ai。利用公式(4),預(yù)測(cè)誤差e(n)越小,預(yù)測(cè)值越接近信號(hào)值S(n)??刹捎胑(n)的最小均方誤差準(zhǔn)則來(lái)確定ai的系數(shù)。若S(n)已知,在短時(shí)間范圍內(nèi)(如20 ms),在8 kHz采樣頻率下就有160個(gè)S(n)樣本點(diǎn),利用它來(lái)訓(xùn)練預(yù)測(cè)濾波器A(z),系數(shù)ai就可以確定。系數(shù)ai是時(shí)變的,但在短的時(shí)限內(nèi)是不變的。因此,在線性預(yù)測(cè)算法中,系數(shù)ai的計(jì)算每幀都要進(jìn)行1次,當(dāng)前幀系數(shù)ai計(jì)算值作為下一次計(jì)算時(shí)用。
4? 語(yǔ)音產(chǎn)生模型的應(yīng)用
??? 語(yǔ)音產(chǎn)生模型說(shuō)明一個(gè)短時(shí)的語(yǔ)音信號(hào)可以用3個(gè)參數(shù)來(lái)定義:(1)從周期性波和隨機(jī)噪聲中選擇1個(gè)作為激發(fā)態(tài);(2)如果使用周期性波,必須選擇1個(gè)頻率作為基音;(3)模擬聲道響應(yīng)所使用的數(shù)字濾波器系數(shù)。
4.1 語(yǔ)音產(chǎn)生模型在語(yǔ)音合成技術(shù)中的應(yīng)用
??? 早期產(chǎn)品中應(yīng)用到的連續(xù)語(yǔ)音合成技術(shù),是借助于大約以每秒40次速度修改上述的短時(shí)語(yǔ)音信號(hào)的3個(gè)參數(shù)來(lái)實(shí)現(xiàn)的。如適合兒童學(xué)習(xí)的“說(shuō)和拼音機(jī)”。由于它僅僅采用26個(gè)英文字母作為音庫(kù),因而這種語(yǔ)音合成的聲音質(zhì)量不高,聲音非常機(jī)械。
??? 此后,用漢字語(yǔ)音作為庫(kù),用波形拼接方法進(jìn)行語(yǔ)音合成,效果有所改進(jìn),但是庫(kù)的存儲(chǔ)量太大。解決的方案是,使用語(yǔ)音分析方法,即利用語(yǔ)音產(chǎn)生模型概念,把一個(gè)語(yǔ)音信號(hào)分解成下列特性參數(shù):線性預(yù)測(cè)系數(shù)(取10個(gè))、基音周期范圍、基音周期數(shù)目(基音持續(xù)時(shí)間)和清音存在時(shí)間等。根據(jù)ITU-T G.729語(yǔ)音編碼方法,一幀語(yǔ)音信號(hào)特征參數(shù)僅需80 bit,即80個(gè)16 bit樣本壓縮為80 bit,縮小16倍。到合成需要該音時(shí),再利用語(yǔ)音產(chǎn)生模型由所存的特征參數(shù)實(shí)時(shí)轉(zhuǎn)換為語(yǔ)音。
4.2 語(yǔ)音產(chǎn)生模型在語(yǔ)音識(shí)別技術(shù)中的應(yīng)用
??? 與機(jī)器進(jìn)行語(yǔ)音交流,讓機(jī)器明白你說(shuō)什么,這是人們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。其原理是:由于每一個(gè)短時(shí)語(yǔ)音信號(hào)包含一串語(yǔ)音特性參數(shù),不同的漢字音有不同的特征參數(shù),所以利用特征參數(shù)的差別來(lái)識(shí)別不同的漢字音。
??? 近20年來(lái),語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開始從實(shí)驗(yàn)室走向市場(chǎng)。預(yù)計(jì)未來(lái)10年內(nèi),語(yǔ)音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。
參考文獻(xiàn)
[1] 拉賓納? L R,謝弗? R W. 語(yǔ)音信號(hào)數(shù)字處理[M]. 北京:科學(xué)出版社,1983.
[2]?戴逸民,梁曉雯,裴小平. 基于DSP的現(xiàn)代電子系統(tǒng)設(shè)計(jì)[M]. 北京:電子工業(yè)出版社,2002.
[3]?奧本海姆. 信號(hào)與系統(tǒng)[M]. 劉樹棠,譯 . 西安:西安交通大學(xué)出版社,1998.
[4]?何蘇勤,王忠勇.TMS320C2000系列DSP原理及應(yīng)用技術(shù)[M].北京:電子工業(yè)出版社,2003.

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。

相關(guān)內(nèi)容