文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.200327
中文引用格式: 夏鼎,徐文濤. 基于生成對抗網(wǎng)絡合成噪聲的語音增強方法研究[J].電子技術應用,2020,46(11):56-59,64.
英文引用格式: Xia Ding,Xu Wentao. Research on speech enhancement method based on generating noise using GAN[J]. Application of Electronic Technique,2020,46(11):56-59,64.
0 引言
在語音信號處理的過程中,背景噪聲和環(huán)境干擾嚴重影響了信號處理的可靠性,需要通過語音增強處理方法去除信號中的噪聲干擾,改善含噪語音的質(zhì)量。因此,語音增強技術在語音識別、聽力輔助和語音通信等領域中具有非常重要的作用。
傳統(tǒng)的語音增強方法有譜減法[1]、維納濾波[2-3]以及之后出現(xiàn)的基于統(tǒng)計模型的處理方法[4]等,這些方法都是基于已知噪聲的統(tǒng)計特性來進行建模,得到噪聲的功率譜信息,對含噪語音信號進行降噪處理,以估計純凈語音信號。這些傳統(tǒng)方法的準確性嚴重依賴數(shù)據(jù)特征工程處理方法和數(shù)據(jù)類型,對于未知的噪聲干擾,其適應能力較差[5]。隨著人工智能的發(fā)展,深度神經(jīng)網(wǎng)絡被應用于語音增強領域[6]。利用深層神經(jīng)網(wǎng)絡的特征學習,可以將含噪語音映射為純凈語音,達到去除噪聲的目的。為了提高深度神經(jīng)網(wǎng)絡進行語音增強方法的泛化能力,最直接的手段是進行數(shù)據(jù)增強,包括增加數(shù)據(jù)的多樣性、擴大數(shù)據(jù)集等。實驗表明,在深度神經(jīng)網(wǎng)絡訓練的過程中采用更多種類的噪聲數(shù)據(jù),語音信噪比質(zhì)量可以顯著提高[7-8]。但是,真實的噪聲數(shù)據(jù)獲取難度較大,成本較高,這限制了網(wǎng)絡去噪能力的適用性。針對這一問題,本文基于生成對抗網(wǎng)絡GAN設計了一種訓練數(shù)據(jù)集增強方法,通過生成虛擬噪聲,擴充訓練集中噪聲數(shù)據(jù)的類型和數(shù)量,提高模型的泛化能力。
本文詳細內(nèi)容請下載:http://m.ihrv.cn/resource/share/2000003050
作者信息:
夏 鼎,徐文濤
(南京航空航天大學 理學院,江蘇 南京211106)
