《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 设计应用 > 面向多说话人分离的深度学习麦克风阵列语音增强
面向多说话人分离的深度学习麦克风阵列语音增强
2022年电子技术应用第5期
张家扬1,2,童 峰1,2,3,陈东升1,2,3,黄惠祥1,2
1.厦门大学 水声通信与海洋信息技术教育部重点实验室,福建 厦门361005; 2.厦门大学 海洋与地球学院,福建 厦门361005;3.厦门大学深圳研究院,广东 深圳518000
摘要: 随着近年来人机语音交互场景不断增加,利用麦克风阵列语音增强提高语音质量成为研究热点之一。与环境噪声不同,多说话人分离场景下干扰说话人语音与目标说话人同为语音信号,呈现类似的时、频特性,对传统麦克风阵列语音增强技术提出更高的挑战。针对多说话人分离场景,基于深度学习网络构建麦阵空间响应代价函数并进行优化,通过深度学习模型训练设计麦克风阵列期望空间传输特性,从而通过改善波束指向性能提高分离效果。仿真和实验结果表明,该方法有效提高了多说话人分离性能。
中圖分類號(hào): TN912.3
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.212404
中文引用格式: 張家揚(yáng),童峰,陳東升,等. 面向多說話人分離的深度學(xué)習(xí)麥克風(fēng)陣列語音增強(qiáng)[J].電子技術(shù)應(yīng)用,2022,48(5):31-36.
英文引用格式: Zhang Jiayang,Tong Feng,Chen Dongsheng,et al. Deep learning microphone array speech enhancement for multiple speaker separation[J]. Application of Electronic Technique,2022,48(5):31-36.
Deep learning microphone array speech enhancement for multiple speaker separation
Zhang Jiayang1,2,Tong Feng1,2,3,Chen Dongsheng1,2,3,Huang Huixiang1,2
1.Key Laboratory of Underwater Acoustic Communication and Marine Information Technology Ministry of Education, Xiamen University,Xiamen 361005,China; 2.College of Ocean and Earth Sciences,Xiamen Univercity,Xiamen 361005,China; 3.Shenzhen Research Institute of Xiamen Univercity,Shenzhen 518000,China
Abstract: With the increase of human-computer voice interaction scenes in recent years, using microphone array speech enhancement to improve speech quality has become one of the research hotspots. Different from the ambient noise, the interfering speaker′s speech and the target speaker are the same speech signal in the multiple speaker separation scene, showing similar time-frequency characteristics, which poses a higher challenge to the traditional microphone array speech enhancement technology. For the multiple speaker separation scenario, the spatial response cost function of microphone array is constructed and optimized based on deep learning network. The desired spatial transmission characteristics of microphone array are designed through deep learning model training, so as to improve the separation effect by improving the beamforming performance. Simulation and experimental results show that this method effectively improves the performance of multiple speaker separation.
Key words : deep learning;microphone array;beamforming;LSTM

0 引言

    隨著人與機(jī)器之間的語言交互逐漸頻繁,更需要考慮噪聲、混響和其他說話人的干擾等引起語音信號(hào)質(zhì)量下降的因素對(duì)語音識(shí)別造成的影響,語音增強(qiáng)技術(shù)[1]可以有效地從受干擾的信號(hào)中提取純凈的語音,而麥克風(fēng)陣列比起單個(gè)麥克風(fēng)可以獲取更多的語音信息和時(shí)空特征,因而麥克風(fēng)陣列語音增強(qiáng)技術(shù)被廣泛應(yīng)用在智能家居、車載系統(tǒng)和音(視)頻會(huì)議等領(lǐng)域。

    麥克風(fēng)陣列對(duì)信號(hào)進(jìn)行空間濾波,可以增強(qiáng)期望方向上的信號(hào)并抑制方向性噪聲,實(shí)現(xiàn)語音增強(qiáng)。傳統(tǒng)麥陣語音增強(qiáng)算法;如形成固定波束的濾波累加波束形成算法(Filter-and-Sum Beamforming,F(xiàn)SB)[2],通過一定長度的濾波器系數(shù)對(duì)多通道信號(hào)進(jìn)行濾波累加,實(shí)現(xiàn)了頻率無關(guān)的空間響應(yīng)特性,具有低復(fù)雜度、硬件容易實(shí)現(xiàn)等優(yōu)點(diǎn),但是對(duì)于具有方向性的噪聲效果不佳。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://m.ihrv.cn/resource/share/2000004272。




作者信息:

張家揚(yáng)1,2,童  峰1,2,3,陳東升1,2,3,黃惠祥1,2

(1.廈門大學(xué) 水聲通信與海洋信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,福建 廈門361005;

2.廈門大學(xué) 海洋與地球?qū)W院,福建 廈門361005;3.廈門大學(xué)深圳研究院,廣東 深圳518000)




wd.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容