《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于語音起始段檢測語音可懂度客觀評(píng)價(jià)方法
基于語音起始段檢測語音可懂度客觀評(píng)價(jià)方法
2015年電子技術(shù)應(yīng)用第6期
徐宇卓1,馬建芬1,張雪英2
1.太原理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原030024; 2.太原理工大學(xué) 信息工程學(xué)院,山西 太原030024
摘要: 傳統(tǒng)的語音評(píng)價(jià)算法,如SNR,存在語音的可懂度相關(guān)性不高的問題。有研究表明,語音的不同部分對(duì)可懂度的貢獻(xiàn)不同,語音的濁音起始段對(duì)可懂度的影響較大。提出一種可懂度相關(guān)性相對(duì)較高的語音評(píng)價(jià)算法。在計(jì)算分段SNR之前,對(duì)語音段進(jìn)行選擇,選出起始段。所提出方法的可懂度計(jì)算結(jié)果與主觀得分進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,結(jié)合語音起始段(speech onset)檢測算法,能夠?qū)⒖啥扰c主觀評(píng)價(jià)的相關(guān)值分別提高0.11(輔音)和0.06(句子),這也從一個(gè)側(cè)面驗(yàn)證了語音的起始段對(duì)可懂度有較大影響這一研究結(jié)論。
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
文章編號(hào): 0258-7998(2015)06-0147-03
Automatic locate algorithm for the defects of industrial CT based on block fractal
Chen Peixing1,2,Wang Mingquan1,2,Li Shihu1,2,Hou Huilin1,2,Wang Yu1,2
1.Key Laboratory of Instrumentation Science & Dynamic Measurement,North University of China,Taiyuan 030051,China; 2.School of Information and Communication Engineering,North University of China,Taiyuan 030051,China
Abstract: For traditional defect location must through steps such as image segmentation and defect extraction, identification process is cumbersome and time-consuming, so this paper proposes a automatic detection algorithm for the defects of industrial CT based on block fractal. To begin with, the method deal with the image into blocks and fractal dimension is calculated on each sub-block area. Then, it sets a threshold according to the frequency distribution histogram of fractal dimensions, and marks the edge of the block. Finally, by dealing with the connected region of marked blocks, it is able to locate and mark defects. Through the processing of solid rocket motor model industrial CT images which contain a different number defects, it can accurately locate defects. The experiments indicate that this method is effective and accurate on automatic locate defects of industrial CT image, and has a strong robustness.
Key words : defect location;fractal;industrial CT;block;region connection

  

0 引言

    人們提出了大量的評(píng)價(jià)方法來預(yù)測在背景噪聲存在條件下的語音可懂度。在這些方法中,SII(Speech Intelligence Index)是現(xiàn)今最廣泛使用的語音可懂度指數(shù)的方法。SII的評(píng)價(jià)是基于語音的可懂度取決于譜信息比例的思想,譜信息比例是可被聽者聽到的并通過頻譜分割成20個(gè)頻帶(同樣適用于可懂度),并估計(jì)每個(gè)頻帶的信號(hào)噪聲比(SNR)加權(quán)平均值。每一個(gè)頻帶中的信噪比由頻帶重要性函數(shù)加權(quán),該函數(shù)根據(jù)語料的不同而不同[1]。SII方法能夠成功預(yù)測出線性濾波和加性噪聲對(duì)語音可懂度的影響[2,3]。然而,還是有許多局限的。其中一個(gè)局限是,SII不能應(yīng)用于語音嵌入在波動(dòng)掩蔽的情況下。一些人已經(jīng)試圖拓展SII方法來評(píng)估在波動(dòng)掩蔽條件下的語音可懂度。例如,Rhebergen提出將語音和掩蔽信號(hào)分割成短幀(9~20 ms),估計(jì)每一幀中的瞬時(shí)AI(Articulation Index)值以及平均所有幀計(jì)算后的AI值來產(chǎn)生單一的AI矩陣。拓展后的短期AI方法被認(rèn)為在估計(jì)嵌入在人工掩蔽信號(hào)(比如周期干擾噪聲)和類語音掩蔽信號(hào)中的句子時(shí)能夠比傳統(tǒng)的AI方法更好地預(yù)測語音可懂度,但是,后者在預(yù)測方面是不夠準(zhǔn)確的[4]。

    MA J、HU Y和LOIZOU P C等學(xué)者提出用清晰語音作為權(quán)值來代替SII算法中的ANSI經(jīng)驗(yàn)權(quán)值,可懂度有所提高[5]。所有這些改進(jìn)都是針對(duì)于頻域進(jìn)行的,并沒有考慮在時(shí)域?qū)π盘?hào)進(jìn)行選擇。然而不同的語音段對(duì)可懂度的貢獻(xiàn)有所不同,如濁音段比清音段或無聲段對(duì)可懂度的影響要大,這一點(diǎn)也和平時(shí)的經(jīng)驗(yàn)相一致。比如在聽一句話時(shí),有時(shí)雖然不能完全聽清晰所有的詞,但只要能聽清楚關(guān)鍵的詞,就能通過聯(lián)想猜出整個(gè)句子的含義。而如果沒有聽清楚關(guān)鍵詞,即使其他部分能夠聽清楚,也無法猜出整個(gè)句子的含義。研究表明濁音段,尤其是音節(jié)的起始部分對(duì)可懂度的影響最大[6],根據(jù)這一思想,本研究提出在時(shí)域選取語音的起始段,然后再對(duì)選出的語音段進(jìn)行SII分析。

1 實(shí)驗(yàn)方法及數(shù)據(jù)

    可懂度評(píng)價(jià)算法使用的是HU Y和LOIZOU P C通過8種不同的噪聲抑制算法處理的語音信號(hào)[7],下面簡要介紹這些語料及增強(qiáng)處理算法。

1.1 語料和主觀評(píng)價(jià)

    IEEE的句子和輔音在/aCa/格式中被用于測試材料。輔音測試包含16個(gè)記錄在/aCa/目錄中的輔音,其中C=/p,t,k,b,d,g,m,n,dh,l,f,v,s,z,sh,dj/。女性講話者產(chǎn)生的全部輔音和男性講話者產(chǎn)生的所有句子,句子和輔音原始采樣為25 kHz,下采樣到8 kHz。從LOIZOU P C的書中可以得到這些記錄。掩蔽被人工加到了語音材料中。掩蔽信號(hào)來自于AURORA數(shù)據(jù)庫[8],并且包括了不同地方的真實(shí)錄音:餐廳、汽車、街道和火車。掩蔽是添加在信噪比是0和5 dB的語音信號(hào)中的。

1.2 去噪算法

    8種不同的去噪算法用來處理受到噪聲干擾的句子,其中包括:廣義子空間的算法、以感知為基礎(chǔ)的子空間算法、最小均方誤差對(duì)數(shù)算法、關(guān)于語音存在的不確定性的最小均方誤差對(duì)數(shù)算法、基于降低延遲卷積譜減法算法、多頻帶譜減法、基于小波閾值多窗口譜的維納濾波算法以及傳統(tǒng)的維納濾波算法。除了關(guān)于語音存在的不確定性的最小均方誤差對(duì)數(shù)算法,其他所有的算法都是基于自身的實(shí)現(xiàn)。這些算法實(shí)現(xiàn)所使用的參數(shù)與公布的是相同的。當(dāng)前測試研究的所有噪聲算法的MATLAB實(shí)現(xiàn)也由LOIZOU P C完成了。

1.3 實(shí)驗(yàn)流程

    總共有40個(gè)當(dāng)?shù)氐拿勒Z講話者被招募用于句子可懂度的測試,這40個(gè)聽者被分成4個(gè)小組(每個(gè)噪聲型為一組),每個(gè)小組有10名聽者。每位受試者共參加了19項(xiàng)聽力條件(=2個(gè)信噪比等級(jí)×8個(gè)算法+2個(gè)帶噪?yún)⒖?1個(gè)安靜)。2個(gè)IEEE的句子列表(每個(gè)列表有10個(gè)句子)被用于每一個(gè)條件中。句子列表都是不重復(fù)的。另有10名聽者加入輔音識(shí)別任務(wù)。被試者按照隨機(jī)順序每個(gè)輔音重復(fù)6次。處理后的語音文件(句子/輔音)以及清晰和帶噪語音文件以單耳的形式呈現(xiàn)給聽者。

    HU Y和LOIZOU P C研究的可懂度產(chǎn)生了總共72種帶噪環(huán)境,其中包括噪聲干擾(未處理)環(huán)境[9]。這72種環(huán)境包括了8種不同噪聲抑制算法在2種信噪比等級(jí)(0和5 dB)在4種類型的真實(shí)環(huán)境(餐廳、汽車、街道和火車)中引起的失真。在這72種條件下得到的可懂度得分在當(dāng)前的研究中被用于評(píng)估大量之前的和新提出的客觀評(píng)價(jià)的可預(yù)測功率。

2 語音起始段檢測方法

    語音信號(hào)隨時(shí)間變化的頻譜特性可以用語譜圖直觀地表示。語譜圖的縱軸對(duì)應(yīng)于頻率,橫軸對(duì)應(yīng)于時(shí)間,而圖像的黑白度對(duì)應(yīng)于信號(hào)的能量。所以,聲道的諧振頻率在圖上就表示成為黑帶,濁音部分則以出現(xiàn)條紋圖形為其特征,這是因?yàn)榇藭r(shí)的時(shí)域波形有周期性,而在濁音的時(shí)間間隔內(nèi)圖形顯得很致密[10]。圖1為“A gold ring will please most any girl”語音的語譜圖。

jsj5-t1.gif

    如果有必要,語音信號(hào)首先要重新采樣。重新采樣出來的信號(hào)要經(jīng)過一個(gè)等響度濾波的處理,之后要使用一個(gè)二階的butterworth濾波器[6]的信道進(jìn)行濾波得出信道信號(hào)。

    圖2中上圖是包絡(luò)圖,下圖是起始段速率圖。包絡(luò)圖中的包絡(luò)是通過對(duì)信道信號(hào)的全波整流得到的。起始段速率是用來計(jì)算全頻帶信道的,而它是由包絡(luò)速率的半波整流得到的,其中,包絡(luò)速率是計(jì)算包絡(luò)的第一次差值。圖2中是測試語音的一部分,上圖表現(xiàn)的是語音句子的一部分(A gold ring)包絡(luò),下圖給出的是對(duì)應(yīng)的起始段。豎線是人工標(biāo)記出來的音節(jié)邊界。

jsj5-t2.gif

    每一個(gè)起始段都有3個(gè)重要的位置,即起始段開始(onset start)、起始段峰(onset peak)、起始段結(jié)束(onset end),如圖2(b)所示。起始段開始被定義為起始段速率首次大于0時(shí)的采樣指數(shù),它對(duì)應(yīng)著原包絡(luò)從谷值到開始的轉(zhuǎn)折點(diǎn),并被認(rèn)為是候選音節(jié)邊界位置。相反,起始段結(jié)束定義為起始段速率最終跌回到0的采樣指數(shù),它對(duì)應(yīng)于原包絡(luò)的峰值且是一個(gè)候選音節(jié)核位置。最后,起始段峰是起始段速率達(dá)到其最大值的采樣指數(shù)。

3 基于語音起始段檢測語音可懂度客觀評(píng)價(jià)算法

    時(shí)域分段信噪比(SNRseg)算法[11]在Hansen和Pellom的文章中提到,且計(jì)算公式如下:

jsj5-gs1-3.gif

4 實(shí)驗(yàn)結(jié)果

    有兩個(gè)數(shù)被應(yīng)用于在預(yù)測語音可懂度中估計(jì)上述客觀評(píng)價(jià)的表現(xiàn)[9]。第一個(gè)數(shù)是Pearson相關(guān)系數(shù)r,第二個(gè)是誤差的標(biāo)準(zhǔn)差估計(jì)值,計(jì)算公式為jsj5-gs3-x1.gif其中σd是給出的條件的語音識(shí)別得分的標(biāo)準(zhǔn)差,σe是計(jì)算誤差的標(biāo)準(zhǔn)差。較小的σe值表明客觀評(píng)價(jià)在預(yù)測語音可懂度方面是較好的。

    對(duì)正常聽力的試聽者在72種不同噪聲環(huán)境下得到的平均可懂度得分進(jìn)行相關(guān)分析,這些分析是客觀評(píng)價(jià)得到的相關(guān)平均值。包括噪聲抑制語音的這些條件最初受到了4種不同的掩蔽信號(hào)(餐廳、汽車、街道和火車)的干擾。計(jì)算的相關(guān)系數(shù)(預(yù)測誤差)位于表1中。

jsj5-b1.gif

    從表1中能夠看出,對(duì)于分段信噪比(SNRseg)[11],輔音和句子的Pearson系數(shù)分別為0.40和0.46;而對(duì)于使用了語音起始段檢測方法的分段信噪比(SNRseg_onset),輔音和句子的Pearson系數(shù)分別為0.51和0.52。接下來對(duì)于4種的不同掩蔽來觀察其相關(guān)系數(shù),位于表2中。

jsj5-b2.gif

    表2給出的分別是分段信噪比(SNRseg)和語音起始段檢測分段信噪比(SNRseg_onset)的4種不同掩蔽信號(hào)(餐廳、汽車、街道和火車)的相關(guān)系數(shù)。從表2中能夠看出,對(duì)于輔音aCa,語音起始段分段信噪比算法(SNRseg_onset)相對(duì)于分段信噪比算法(SNRseg)的Pearson相關(guān)系數(shù)都有所提高。而對(duì)于句子Sen,大體都是所提高的,只有在火車噪聲掩蔽下,相關(guān)系數(shù)是有所下降的??偟膩碚f,由表1和表2中可以觀察到,語音起始段檢測分段信噪比算法(SNRseg_onset)的相關(guān)系數(shù)確實(shí)是提高了很多的。這就說明語音起始段檢測方法用于SNR評(píng)價(jià)算法是有較好的表現(xiàn)的,也充分說明語音起始段(speech onset)對(duì)于SNR評(píng)價(jià)算法確實(shí)是有正面的影響的。

5 結(jié)論

    當(dāng)前的研究是在真實(shí)噪聲條件下評(píng)價(jià)就預(yù)測語音可懂度而言傳統(tǒng)的客觀評(píng)價(jià)算法(SNRseg)和新的客觀評(píng)價(jià)算法(SNRseg_onset)的表現(xiàn)。這些客觀評(píng)價(jià)算法在總共72個(gè)噪聲條件下進(jìn)行測試,這些噪聲條件包括在真實(shí)世界的噪聲類型(汽車、餐廳、火車和街道噪聲)干擾下的處理過的句子和無意義的音節(jié)。傳統(tǒng)的SNR評(píng)價(jià)算法的表現(xiàn)是不夠好的(輔音r=0.40,句子r=0.46),而當(dāng)結(jié)合了本文提出的語音起始段檢測算法的SNR,即SNRseg_onset評(píng)價(jià)算法,其在預(yù)測語音可懂度方面有較好的表現(xiàn)(輔音r=0.51,句子r=0.52)。同時(shí)也說明語音起始段(speech onset)對(duì)于SNR評(píng)價(jià)算法確實(shí)是有好的影響的,表明結(jié)合語音起始段(speech onset)檢測算法能夠提高客觀評(píng)價(jià)算法的性能。

參考文獻(xiàn)

[1] HALL S M,ISAACSON J J,BURHANS C G,et al.New editions of ANSI standards for warnings[C].9th Annual IEEE Product Safety Engineering Society′s Symposium on Product Compliance Engineering,ISPCE 2012,Portland,2012:1-4.

[2] LOIZOU P C,Ma Jianfen.Extending the articulation index to account for non-linear distortions introduced by noisesuppression algorithms[J].Journal of the Acoustical Society of America,2011,130(2):986-995.

[3] KRYTER K D.(1962b).Validation of the articulation index[J].Journal of the Acoustical Society of America,1962(34):1698-1706.

[4] RHEBERGEN K S,VERSFELD N J.A speech intelligibility index-based approach to predict the speech reception threshold for sentences influctuating noise for normalhearing listeners[J].Journal of the Acoustical Society of America,2005(117):2181-2192.

[5] MA J,HU Y,LOIZOU P C.Objective measures for pre dicting speech intelligibility in noisy conditions based on new band-importance functions[J].Journal of the Acoustical Society of America,2009,125(5):3387-3405.

[6] VILLING R,TIMONEY J,WARD T,et al.Automatic blind syllable segmentation for continuous speech[C].Irish Signals and Systems Conference,Belfast,2004.

[7] HU Y,LOIZOU P C.A comparative intelligibility study of single-microphone noise reduction algorithms[J].Journal of the Acoustical Society of America,2007,122(3):1777-1786.

[8] DO C T,PASTOR D,GOALIC A.A novel framework for noise robust ASR using cochlear implant-like spectrally reduced speech[J].Speech Communication,2012,54(1):119-133.

[9] HU Y,LOIZOU P C.Evaluation of objective quality measures for speech enhancement[J].IEEE Trans.Audio,Speech,Lang.Process,2008(16):229-238.

[10] 張雪英.數(shù)字語音處理及MATLAB仿真[M].北京:電子工業(yè)出版社,2010:19.

[11] KOBAYASHI Y,KONDO K.Speech intelligibility estimation using support vector regression and critical band segmental SNR in noisy condition[J].IEEJ Transactions on Electronics,Information and Systems,2013,133(8):1556-1564.

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。