文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.02.015
引用格式: 劉偉,孫蒙,張玥,等. 正交約束型SincNet可微分前端及在音頻分類中的應(yīng)用[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2022,41(2):92-98.
0 引言
音頻分類是計(jì)算機(jī)自動(dòng)實(shí)施聽(tīng)覺(jué)感知和理解的重要步驟,也是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù),如自動(dòng)音樂(lè)標(biāo)記、音樂(lè)類型分類、說(shuō)話人識(shí)別、音頻場(chǎng)景分類和多媒體檢索等。深度神經(jīng)網(wǎng)絡(luò)的發(fā)展使得音頻分類任務(wù)的準(zhǔn)確率取得了顯著提升。當(dāng)前,深度神經(jīng)網(wǎng)絡(luò)一般是建立在對(duì)輸入音頻提取時(shí)頻特征等預(yù)處理的基礎(chǔ)上,如首先通過(guò)廣泛使用的梅爾濾波器組提取時(shí)頻譜圖特征,然后將時(shí)頻譜圖特征輸入到各種后端分類網(wǎng)絡(luò)。
特征提取的預(yù)處理過(guò)程通常采用固定的時(shí)頻參數(shù)和濾波器類型,難以保證對(duì)所有的后端分類網(wǎng)絡(luò)結(jié)構(gòu)持續(xù)提取出最優(yōu)特征。此外,這些預(yù)處理過(guò)程一般需要線下完成,不能無(wú)縫對(duì)接到神經(jīng)網(wǎng)絡(luò)分類器中,因此難以適用于一些需要對(duì)聲音波形進(jìn)行反向求導(dǎo)的任務(wù),如求解對(duì)抗樣本[1]等。這些局限性推動(dòng)了研究者們尋求構(gòu)建端到端模型來(lái)完成音頻分類任務(wù)。所謂端到端的分類網(wǎng)絡(luò)結(jié)構(gòu)是指直接輸入聲音波形,然后輸出類別標(biāo)簽,而無(wú)須用戶通過(guò)額外的特征提取工具來(lái)提取特征。例如,Dai等提出了具有不同網(wǎng)絡(luò)結(jié)構(gòu)和不同數(shù)量參數(shù)的端到端卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)用于音頻分類[2]。Tokozume等提出了一種含有8層網(wǎng)絡(luò)并以原始波形為輸入的端到端網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)調(diào)節(jié)超參數(shù)并選擇適當(dāng)大小的卷積核來(lái)提高分類性能[3]。此外,還有端到端的CNN架構(gòu)AclNet[4],受到MobileNet[5]的啟發(fā),其計(jì)算僅需155k參數(shù)和每秒4 930萬(wàn)次乘法加法即可高效完成分類任務(wù)。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://m.ihrv.cn/resource/share/2000004865
作者信息:
劉 偉,孫 蒙,張 玥,張雄偉
(中國(guó)人民解放軍陸軍工程大學(xué),江蘇 南京210007)