文獻(xiàn)標(biāo)識(shí)碼: A
文章編號(hào): 0258-7998(2015)06-0147-03
0 引言
人們提出了大量的評(píng)價(jià)方法來預(yù)測在背景噪聲存在條件下的語音可懂度。在這些方法中,SII(Speech Intelligence Index)是現(xiàn)今最廣泛使用的語音可懂度指數(shù)的方法。SII的評(píng)價(jià)是基于語音的可懂度取決于譜信息比例的思想,譜信息比例是可被聽者聽到的并通過頻譜分割成20個(gè)頻帶(同樣適用于可懂度),并估計(jì)每個(gè)頻帶的信號(hào)噪聲比(SNR)加權(quán)平均值。每一個(gè)頻帶中的信噪比由頻帶重要性函數(shù)加權(quán),該函數(shù)根據(jù)語料的不同而不同[1]。SII方法能夠成功預(yù)測出線性濾波和加性噪聲對(duì)語音可懂度的影響[2,3]。然而,還是有許多局限的。其中一個(gè)局限是,SII不能應(yīng)用于語音嵌入在波動(dòng)掩蔽的情況下。一些人已經(jīng)試圖拓展SII方法來評(píng)估在波動(dòng)掩蔽條件下的語音可懂度。例如,Rhebergen提出將語音和掩蔽信號(hào)分割成短幀(9~20 ms),估計(jì)每一幀中的瞬時(shí)AI(Articulation Index)值以及平均所有幀計(jì)算后的AI值來產(chǎn)生單一的AI矩陣。拓展后的短期AI方法被認(rèn)為在估計(jì)嵌入在人工掩蔽信號(hào)(比如周期干擾噪聲)和類語音掩蔽信號(hào)中的句子時(shí)能夠比傳統(tǒng)的AI方法更好地預(yù)測語音可懂度,但是,后者在預(yù)測方面是不夠準(zhǔn)確的[4]。
MA J、HU Y和LOIZOU P C等學(xué)者提出用清晰語音作為權(quán)值來代替SII算法中的ANSI經(jīng)驗(yàn)權(quán)值,可懂度有所提高[5]。所有這些改進(jìn)都是針對(duì)于頻域進(jìn)行的,并沒有考慮在時(shí)域?qū)π盘?hào)進(jìn)行選擇。然而不同的語音段對(duì)可懂度的貢獻(xiàn)有所不同,如濁音段比清音段或無聲段對(duì)可懂度的影響要大,這一點(diǎn)也和平時(shí)的經(jīng)驗(yàn)相一致。比如在聽一句話時(shí),有時(shí)雖然不能完全聽清晰所有的詞,但只要能聽清楚關(guān)鍵的詞,就能通過聯(lián)想猜出整個(gè)句子的含義。而如果沒有聽清楚關(guān)鍵詞,即使其他部分能夠聽清楚,也無法猜出整個(gè)句子的含義。研究表明濁音段,尤其是音節(jié)的起始部分對(duì)可懂度的影響最大[6],根據(jù)這一思想,本研究提出在時(shí)域選取語音的起始段,然后再對(duì)選出的語音段進(jìn)行SII分析。
1 實(shí)驗(yàn)方法及數(shù)據(jù)
可懂度評(píng)價(jià)算法使用的是HU Y和LOIZOU P C通過8種不同的噪聲抑制算法處理的語音信號(hào)[7],下面簡要介紹這些語料及增強(qiáng)處理算法。
1.1 語料和主觀評(píng)價(jià)
IEEE的句子和輔音在/aCa/格式中被用于測試材料。輔音測試包含16個(gè)記錄在/aCa/目錄中的輔音,其中C=/p,t,k,b,d,g,m,n,dh,l,f,v,s,z,sh,dj/。女性講話者產(chǎn)生的全部輔音和男性講話者產(chǎn)生的所有句子,句子和輔音原始采樣為25 kHz,下采樣到8 kHz。從LOIZOU P C的書中可以得到這些記錄。掩蔽被人工加到了語音材料中。掩蔽信號(hào)來自于AURORA數(shù)據(jù)庫[8],并且包括了不同地方的真實(shí)錄音:餐廳、汽車、街道和火車。掩蔽是添加在信噪比是0和5 dB的語音信號(hào)中的。
1.2 去噪算法
8種不同的去噪算法用來處理受到噪聲干擾的句子,其中包括:廣義子空間的算法、以感知為基礎(chǔ)的子空間算法、最小均方誤差對(duì)數(shù)算法、關(guān)于語音存在的不確定性的最小均方誤差對(duì)數(shù)算法、基于降低延遲卷積譜減法算法、多頻帶譜減法、基于小波閾值多窗口譜的維納濾波算法以及傳統(tǒng)的維納濾波算法。除了關(guān)于語音存在的不確定性的最小均方誤差對(duì)數(shù)算法,其他所有的算法都是基于自身的實(shí)現(xiàn)。這些算法實(shí)現(xiàn)所使用的參數(shù)與公布的是相同的。當(dāng)前測試研究的所有噪聲算法的MATLAB實(shí)現(xiàn)也由LOIZOU P C完成了。
1.3 實(shí)驗(yàn)流程
總共有40個(gè)當(dāng)?shù)氐拿勒Z講話者被招募用于句子可懂度的測試,這40個(gè)聽者被分成4個(gè)小組(每個(gè)噪聲型為一組),每個(gè)小組有10名聽者。每位受試者共參加了19項(xiàng)聽力條件(=2個(gè)信噪比等級(jí)×8個(gè)算法+2個(gè)帶噪?yún)⒖?1個(gè)安靜)。2個(gè)IEEE的句子列表(每個(gè)列表有10個(gè)句子)被用于每一個(gè)條件中。句子列表都是不重復(fù)的。另有10名聽者加入輔音識(shí)別任務(wù)。被試者按照隨機(jī)順序每個(gè)輔音重復(fù)6次。處理后的語音文件(句子/輔音)以及清晰和帶噪語音文件以單耳的形式呈現(xiàn)給聽者。
HU Y和LOIZOU P C研究的可懂度產(chǎn)生了總共72種帶噪環(huán)境,其中包括噪聲干擾(未處理)環(huán)境[9]。這72種環(huán)境包括了8種不同噪聲抑制算法在2種信噪比等級(jí)(0和5 dB)在4種類型的真實(shí)環(huán)境(餐廳、汽車、街道和火車)中引起的失真。在這72種條件下得到的可懂度得分在當(dāng)前的研究中被用于評(píng)估大量之前的和新提出的客觀評(píng)價(jià)的可預(yù)測功率。
2 語音起始段檢測方法
語音信號(hào)隨時(shí)間變化的頻譜特性可以用語譜圖直觀地表示。語譜圖的縱軸對(duì)應(yīng)于頻率,橫軸對(duì)應(yīng)于時(shí)間,而圖像的黑白度對(duì)應(yīng)于信號(hào)的能量。所以,聲道的諧振頻率在圖上就表示成為黑帶,濁音部分則以出現(xiàn)條紋圖形為其特征,這是因?yàn)榇藭r(shí)的時(shí)域波形有周期性,而在濁音的時(shí)間間隔內(nèi)圖形顯得很致密[10]。圖1為“A gold ring will please most any girl”語音的語譜圖。
如果有必要,語音信號(hào)首先要重新采樣。重新采樣出來的信號(hào)要經(jīng)過一個(gè)等響度濾波的處理,之后要使用一個(gè)二階的butterworth濾波器[6]的信道進(jìn)行濾波得出信道信號(hào)。
圖2中上圖是包絡(luò)圖,下圖是起始段速率圖。包絡(luò)圖中的包絡(luò)是通過對(duì)信道信號(hào)的全波整流得到的。起始段速率是用來計(jì)算全頻帶信道的,而它是由包絡(luò)速率的半波整流得到的,其中,包絡(luò)速率是計(jì)算包絡(luò)的第一次差值。圖2中是測試語音的一部分,上圖表現(xiàn)的是語音句子的一部分(A gold ring)包絡(luò),下圖給出的是對(duì)應(yīng)的起始段。豎線是人工標(biāo)記出來的音節(jié)邊界。
每一個(gè)起始段都有3個(gè)重要的位置,即起始段開始(onset start)、起始段峰(onset peak)、起始段結(jié)束(onset end),如圖2(b)所示。起始段開始被定義為起始段速率首次大于0時(shí)的采樣指數(shù),它對(duì)應(yīng)著原包絡(luò)從谷值到開始的轉(zhuǎn)折點(diǎn),并被認(rèn)為是候選音節(jié)邊界位置。相反,起始段結(jié)束定義為起始段速率最終跌回到0的采樣指數(shù),它對(duì)應(yīng)于原包絡(luò)的峰值且是一個(gè)候選音節(jié)核位置。最后,起始段峰是起始段速率達(dá)到其最大值的采樣指數(shù)。
3 基于語音起始段檢測語音可懂度客觀評(píng)價(jià)算法
時(shí)域分段信噪比(SNRseg)算法[11]在Hansen和Pellom的文章中提到,且計(jì)算公式如下:
4 實(shí)驗(yàn)結(jié)果
有兩個(gè)數(shù)被應(yīng)用于在預(yù)測語音可懂度中估計(jì)上述客觀評(píng)價(jià)的表現(xiàn)[9]。第一個(gè)數(shù)是Pearson相關(guān)系數(shù)r,第二個(gè)是誤差的標(biāo)準(zhǔn)差估計(jì)值,計(jì)算公式為其中σd是給出的條件的語音識(shí)別得分的標(biāo)準(zhǔn)差,σe是計(jì)算誤差的標(biāo)準(zhǔn)差。較小的σe值表明客觀評(píng)價(jià)在預(yù)測語音可懂度方面是較好的。
對(duì)正常聽力的試聽者在72種不同噪聲環(huán)境下得到的平均可懂度得分進(jìn)行相關(guān)分析,這些分析是客觀評(píng)價(jià)得到的相關(guān)平均值。包括噪聲抑制語音的這些條件最初受到了4種不同的掩蔽信號(hào)(餐廳、汽車、街道和火車)的干擾。計(jì)算的相關(guān)系數(shù)(預(yù)測誤差)位于表1中。
從表1中能夠看出,對(duì)于分段信噪比(SNRseg)[11],輔音和句子的Pearson系數(shù)分別為0.40和0.46;而對(duì)于使用了語音起始段檢測方法的分段信噪比(SNRseg_onset),輔音和句子的Pearson系數(shù)分別為0.51和0.52。接下來對(duì)于4種的不同掩蔽來觀察其相關(guān)系數(shù),位于表2中。
表2給出的分別是分段信噪比(SNRseg)和語音起始段檢測分段信噪比(SNRseg_onset)的4種不同掩蔽信號(hào)(餐廳、汽車、街道和火車)的相關(guān)系數(shù)。從表2中能夠看出,對(duì)于輔音aCa,語音起始段分段信噪比算法(SNRseg_onset)相對(duì)于分段信噪比算法(SNRseg)的Pearson相關(guān)系數(shù)都有所提高。而對(duì)于句子Sen,大體都是所提高的,只有在火車噪聲掩蔽下,相關(guān)系數(shù)是有所下降的??偟膩碚f,由表1和表2中可以觀察到,語音起始段檢測分段信噪比算法(SNRseg_onset)的相關(guān)系數(shù)確實(shí)是提高了很多的。這就說明語音起始段檢測方法用于SNR評(píng)價(jià)算法是有較好的表現(xiàn)的,也充分說明語音起始段(speech onset)對(duì)于SNR評(píng)價(jià)算法確實(shí)是有正面的影響的。
5 結(jié)論
當(dāng)前的研究是在真實(shí)噪聲條件下評(píng)價(jià)就預(yù)測語音可懂度而言傳統(tǒng)的客觀評(píng)價(jià)算法(SNRseg)和新的客觀評(píng)價(jià)算法(SNRseg_onset)的表現(xiàn)。這些客觀評(píng)價(jià)算法在總共72個(gè)噪聲條件下進(jìn)行測試,這些噪聲條件包括在真實(shí)世界的噪聲類型(汽車、餐廳、火車和街道噪聲)干擾下的處理過的句子和無意義的音節(jié)。傳統(tǒng)的SNR評(píng)價(jià)算法的表現(xiàn)是不夠好的(輔音r=0.40,句子r=0.46),而當(dāng)結(jié)合了本文提出的語音起始段檢測算法的SNR,即SNRseg_onset評(píng)價(jià)算法,其在預(yù)測語音可懂度方面有較好的表現(xiàn)(輔音r=0.51,句子r=0.52)。同時(shí)也說明語音起始段(speech onset)對(duì)于SNR評(píng)價(jià)算法確實(shí)是有好的影響的,表明結(jié)合語音起始段(speech onset)檢測算法能夠提高客觀評(píng)價(jià)算法的性能。
參考文獻(xiàn)
[1] HALL S M,ISAACSON J J,BURHANS C G,et al.New editions of ANSI standards for warnings[C].9th Annual IEEE Product Safety Engineering Society′s Symposium on Product Compliance Engineering,ISPCE 2012,Portland,2012:1-4.
[2] LOIZOU P C,Ma Jianfen.Extending the articulation index to account for non-linear distortions introduced by noisesuppression algorithms[J].Journal of the Acoustical Society of America,2011,130(2):986-995.
[3] KRYTER K D.(1962b).Validation of the articulation index[J].Journal of the Acoustical Society of America,1962(34):1698-1706.
[4] RHEBERGEN K S,VERSFELD N J.A speech intelligibility index-based approach to predict the speech reception threshold for sentences influctuating noise for normalhearing listeners[J].Journal of the Acoustical Society of America,2005(117):2181-2192.
[5] MA J,HU Y,LOIZOU P C.Objective measures for pre dicting speech intelligibility in noisy conditions based on new band-importance functions[J].Journal of the Acoustical Society of America,2009,125(5):3387-3405.
[6] VILLING R,TIMONEY J,WARD T,et al.Automatic blind syllable segmentation for continuous speech[C].Irish Signals and Systems Conference,Belfast,2004.
[7] HU Y,LOIZOU P C.A comparative intelligibility study of single-microphone noise reduction algorithms[J].Journal of the Acoustical Society of America,2007,122(3):1777-1786.
[8] DO C T,PASTOR D,GOALIC A.A novel framework for noise robust ASR using cochlear implant-like spectrally reduced speech[J].Speech Communication,2012,54(1):119-133.
[9] HU Y,LOIZOU P C.Evaluation of objective quality measures for speech enhancement[J].IEEE Trans.Audio,Speech,Lang.Process,2008(16):229-238.
[10] 張雪英.數(shù)字語音處理及MATLAB仿真[M].北京:電子工業(yè)出版社,2010:19.
[11] KOBAYASHI Y,KONDO K.Speech intelligibility estimation using support vector regression and critical band segmental SNR in noisy condition[J].IEEJ Transactions on Electronics,Information and Systems,2013,133(8):1556-1564.