最新精品在线,A级毛片久久久久久精品

論文翻譯：2021_Real-Time Denoising and Dereverberation wtih Tiny Recurrent U-Net

2023-06-26 21:05:02來源： 博客園

論文地址：微型循環(huán)U-Net實時降噪和去混響
論文代碼：

(相關(guān)資料圖)
https://github.com/YangangCao/TRUNethttps://github.com/amirpashamobinitehrani/tinyrecurrentunet
引用格式：Choi H S, Park S, Lee J H, et al. Real-Time Denoising and Dereverberation wtih Tiny Recurrent U-Net[C]//ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021: 5789-5793.

摘要

現(xiàn)代基于深度學(xué)習(xí)的模型在語音增強任務(wù)中表現(xiàn)出了顯著的改進。然而，對于現(xiàn)實世界的應(yīng)用程序來說，最先進的模型的參數(shù)數(shù)量往往過于龐大，無法部署到設(shè)備上。為此，我們提出了微型循環(huán)U-Net(Tiny Recurrent U-Net，TRU-Net)，這是一個輕量級的在線推理模型，與當(dāng)前最先進的模型性能相匹配。TRU-Net的量化版本大小為362k字節(jié)，小到可以部署在邊緣設(shè)備上。此外，我們將小尺寸模型與一種新的掩碼方法(phase-aware β-sigmoid mask)相結(jié)合，它可以同時去噪和去everberation。客觀和主觀評估的結(jié)果表明，我們的模型可以在基準(zhǔn)數(shù)據(jù)集上使用更少的參數(shù)達(dá)到與當(dāng)前最先進的模型競爭的性能。

關(guān)鍵詞：實時語音增強，輕量級網(wǎng)絡(luò)，去噪，去混響

1 引言

在本文中，我們專注于開發(fā)一個基于深度學(xué)習(xí)的語音增強模型，該模型適用于現(xiàn)實世界的應(yīng)用，滿足以下條件：

1、一個小而快速的模型，可以盡可能減少單幀實時因子(RTF)，同時保持與最先進的深度學(xué)習(xí)網(wǎng)絡(luò)的競爭性能，

2、一個可以同時進行去噪和解噪的模型。

為了解決第一個問題，我們的目標(biāo)是改進一種流行的神經(jīng)結(jié)構(gòu)(U-Net[1])，它已經(jīng)證明在語音增強任務(wù)中具有卓越的性能[2,3,4]。以往使用U-Net進行源分離的方法不僅在頻率維度上應(yīng)用卷積，而且在時間維度上也應(yīng)用卷積。U-Net的這種非因果性質(zhì)增加了計算復(fù)雜性，因為需要對過去和未來幀進行額外的計算來推斷當(dāng)前的框架。因此，它不適用于需要實時處理當(dāng)前幀的在線推理場景。此外，時間維度使得網(wǎng)絡(luò)計算效率低下，因為在U-Net的編碼和解碼路徑中相鄰幀之間都存在冗余計算。為了解決這一問題，我們提出了一種適用于在線語音增強的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——微型循環(huán)U-Net (Tiny Recurrent U-Net, TRU-Net)。該體系結(jié)構(gòu)旨在實現(xiàn)頻率維度和時間維度計算的有效解耦，從而使網(wǎng)絡(luò)足夠快，能夠?qū)崟r處理單個幀。該網(wǎng)絡(luò)的參數(shù)數(shù)量僅為0.38M，不僅可以部署在筆記本電腦上，還可以部署在移動設(shè)備上，甚至可以部署在結(jié)合量化技術(shù)[5]的嵌入式設(shè)備上。TRU-Net的詳細(xì)信息在第2節(jié)中有更多的描述。

接下來，為了同時抑制噪聲和混響，我們提出了一種相位感知 B-sigmoid 掩碼 (PHM)。所提出的 PHM 受到 [6] 的啟發(fā)，其中作者建議通過從三角函數(shù)的角度重用估計的幅度掩碼值來估計相位。 PHM 與 [6] 中的方法的主要區(qū)別在于 PHM 旨在尊重混合、目標(biāo)源和剩余部分之間的三角關(guān)系，因此估計的目標(biāo)源和剩余部分的總和始終相等到混合物。我們通過同時生成兩個不同的 PHM 將該屬性擴展到四邊形，這使我們能夠有效地處理去噪和去混響。我們將在第 3 節(jié)中更詳細(xì)地討論 PHM。

2 Tiny循環(huán)U-Net2.1 PCEN特征作為輸入

語譜圖可能是許多語音增強模型中最流行的輸入特性。每通道能量歸一化(PCEN)[7]結(jié)合了動態(tài)范圍壓縮和自動增益控制，在應(yīng)用于頻譜圖[8]時降低了前景響度的方差并抑制了背景噪聲。PCEN也適用于在線推理場景，因為它包括一個時間積分步驟，它本質(zhì)上是一個一階無限脈沖響應(yīng)濾波器，僅依賴于前一個輸入幀。在這項工作中，我們采用可訓(xùn)練版本的PCEN。

2.2 網(wǎng)絡(luò)結(jié)構(gòu)

TRU-Net 基于 U-Net 架構(gòu)，只在頻率維度上卷積，在時間維度上不卷積。因此，它可以被認(rèn)為是一個頻率軸的U-Net，瓶頸層是一維卷積神經(jīng)網(wǎng)絡(luò)(cnn)和循環(huán)神經(jīng)網(wǎng)絡(luò)。編碼器由一維卷積神經(jīng)網(wǎng)絡(luò) (1D-CNN) 塊和頻率維度門控循環(huán)單元 (FGRU) 塊組成。每個 1D-CNN 塊都是類似于 [9] 的點卷積和深度卷積(就是深度可分離卷積)，除了第一層使用標(biāo)準(zhǔn)卷積操作而沒有前面的pointwise convolution。為了節(jié)省網(wǎng)絡(luò)大小，我們使用了六個 1D-CNN 塊，它們使用跨步卷積將頻率維度大小從 256 下采樣到 16。這會導(dǎo)致可能對網(wǎng)絡(luò)性能有害的小感受野 (1,750Hz)。為了增加感受野，我們沿頻率維度使用雙向 GRU 層 [10]，而不是堆疊更多的 1D-CNN 塊。也就是說，來自 1D-CNN 塊的 16 個向量序列被傳遞到雙向 GRU 以增加感受野并沿頻率維度共享信息(譯者：雙向GRU可以增加感受野？頭一次聽，表述有問題)。我們將此頻率維度雙向 GRU 層稱為 FGRU 層。在 FGRU 層之后使用pointwise convolution、BN 和 ReLU，組成一個 FGRU 塊。我們?yōu)槊總€前向和后向 FGRU 單元使用了 64 個hidden size。

解碼器由時間維度門控循環(huán)單元 (TGRU) 塊和一維轉(zhuǎn)置卷積神經(jīng)網(wǎng)絡(luò) (1D-TrCNN) 塊組成。編碼器的輸出被傳遞到單向 GRU 層以沿時間維度聚合信息。我們稱這個 GRU 層為 TGRU 層。一個pointwise convolution、BN 和 ReLU 在 TGRU 層之后，組成一個 TGRU 塊。我們?yōu)?TGRU 單元使用了 128 個隱藏維度。最后，使用 1D-TrCNN 塊將 TGRU 塊的輸出上采樣到原始頻譜圖大小。 1D-TrCNN 塊接受兩個輸入(1. 前一層輸出，2. 來自同一層次結(jié)構(gòu)的編碼器的跳躍連接)，并按如下方式對它們進行上采樣。首先，使用pointwise convolution將兩個輸入連接起來并投影到更小的通道大小（192 -> 64）。然后，使用一維轉(zhuǎn)置卷積對壓縮信息進行上采樣。與通常的 U-Net 實現(xiàn)相比，此過程節(jié)省了參數(shù)的數(shù)量和計算量，其中兩個輸入立即連接并使用轉(zhuǎn)置卷積操作進行上采樣。請注意，我們沒有對 1D-TrCNN 塊使用深度卷積，因為我們根據(jù)經(jīng)驗觀察到它在解碼階段使用時會顯著降低性能。

編碼器和解碼器中使用的每個卷積操作后面都是 BN 和 ReLU。我們將卷積配置表示如下，l-th: (k, s, c) ，其中 l, k, s, c 分別表示層索引、內(nèi)核大小、步幅和輸出通道。編碼器和解碼器的詳細(xì)配置如下，Encoder Config= f1-th: (5,2,64), 2-th: (3,1,128), 3-th: (5,2,128), 4-th: (3,1,128), 5-th: (5,2,128), 6-th: (3,2,128)}, Decoder Config = f1-th: (3,2,64), 2-th: (5,2, 64), 3-th: (3,1,64), 4-th: (5,2,64), 5-th: (3,1,64), 6-th: (5,2,10) G。請注意，pointwise convolution操作共享相同的輸出通道配置，除了 k 和 s 均為 1。TRU-Net 概述以及用于 1D-CNN 塊、FGRU 塊、TGRU 塊和 1DTrCNN 塊的參數(shù)數(shù)量如圖 1 所示。

3單級去噪和去混響

帶混響和噪聲的信號$x$通常被建模為加性噪聲$y^{(n)}$和混響源$\tilde{y}$的和，其中$\tilde{y}$是房間脈沖響應(yīng)(RIR) $h$與$y$的卷積結(jié)果，如下所示：

$$公式1：x=\tilde{y}+y^{(n)}=h \circledast y+y^{(n)}$$

更具體地說，我們可以把$h$分解成兩部分。第一，直接路徑部分$h^{(d)}$，其中不包括反射路徑，第二，反射路徑$h(r)$，如下所示:

$$公式2：x=h^{(d)} \circledast y+h^{(r)} \circledast y+y^{(n)}=y^{(d)}+y^{(r)}+y^{(n)}$$

式中，$y(d)$和$y(r)$分別表示直接路徑源和混響。在這個設(shè)置中，我們的目標(biāo)是將x分成三個元素$y^{(d)}, y^{(r)}和y^{(n)}$。短時傅里葉變換(STFT)計算得到的每個對應(yīng)的時間頻率表示記為$X_{t,f}, Y_{t,f}^{(d)}, Y_{t,f}^{(r)}, Y_{t,f}^{(n)}$，估計值用$\hat{·}$表示。

3.1 相位感知$\beta$-sigmoid mask

所提出的相位感知$\beta$-sigmoid掩碼（PHM）是一種復(fù)數(shù)掩碼，能夠系統(tǒng)地將估計的復(fù)數(shù)值的和，恰好等于混合值，$X_{t,f}=Y_{t,f}^{(k)}+Y_{t,f}^{(-k)}$。PHM 將 STFT 域中的混合$X_{t,f}$以一對余(one vs rest)的方法分成兩部分，即信號$Y_{t,f}^{(k)}$和其余信號的和$Y_{t,f}^{(-k)}=X_{t,f}-Y_{t,f}^{(k)}$，其中索引$k$可以是我們設(shè)置中的直接路徑源 (d)、混響 (r) 和噪聲 (n) 之一，$k \in {d,r,n}$。復(fù)數(shù)掩碼$M_{t,f}^{(k)}\in C$估計感興趣源$k$的幅度和相位值。

計算 PHM 需要兩個步驟。首先，網(wǎng)絡(luò)用sigmoid函數(shù)$\sigma ^{(k)}(z_{t,f})$乘以系數(shù)$\beta_{t,f}$輸出兩個掩碼$|M_{t,f}^{(k)}|$和$|M_{t,f}^{(-k)}|$的幅度部分，$|M_{t,f}^{(k)}|=\beta_{t,f}·\sigma^{(k)}(z_{t,f})=\beta_{t,f}·(1+e^{-(z_{t,f}^{(k)}-z_{t,f}^{(-k)})})^{-1}$，其中$z_{t,f}^{(k)}$是神經(jīng)網(wǎng)絡(luò)函數(shù)$\psi^{(k)}(\phi)$最后一層的輸出，$\phi$是最后一層之前的網(wǎng)絡(luò)層組成的函數(shù)。$M_{t,f}^{(k)}$用作估計源$k$的幅度掩碼，其值范圍從0到$\beta_{t,f}$。$\beta_{t,f}$的作用是設(shè)計一個接近最優(yōu)值且幅度范圍靈活的掩碼，以便與常用的 sigmoid 掩碼不同，值沒有介于 0 和 1 之間。另外，因為復(fù)數(shù)掩碼$|M_{t,f}^{(k)}|$和$|M_{t,f}^{(-k)}|$之和必須組成一個三角形，所以設(shè)計一個滿足三角不等式的掩碼是合理的，即$|M_{t,f}^{(k)}|+|M_{t,f}^{(-k)}|\geq 1$且$|M_{t,f}^{(k)}|-|M_{t,f}^{(-k)}|\leq 1$。為了解決第一個不等式，我們設(shè)計網(wǎng)絡(luò)從最后一層輸出$\beta_{t,f}$，具有如下的 softplus 激活函數(shù)，$\beta_{t,f}=1+softplus((\psi_{\beta}(\phi ))_{t,f})$，其中表示要輸出的附加網(wǎng)絡(luò)層$\beta_{t,f}$。第二個不等式可以通過將$\beta_{t,f}$的上界裁剪為$1/|\sigma ^{(k)}(z_{t,f})-\sigma ^{(-k)}(z_{t,f})|$來滿足。

一旦確定了幅度掩碼，我們就可以構(gòu)造一個相位掩碼$e^{j\theta_{t,f}^{(k)}}$。給定三角形三個邊的幅值，我們可以計算混合物和源$k$之間的絕對相位差$\theta_{t,f}^{(k)}$的余弦值，$cos(\triangle \theta _{t,f}^{(k)})=(1+|M_{t,f}^{(k)}|^2-|M_{t,f}^{(-k)}|^2)/(2|M_{t,f}^{(k)}|)$。然后，為相位掩碼估計用于相位校正的旋轉(zhuǎn)方向$\xi_{t,f}\in \{1,-1\}$（順時針或逆時針）如下，$e^{j\theta_{t,f}^{(k)}}=cos(\triangle \theta _{t,f}^{(k)})+j\xi_{t,f}sin(\triangle \theta _{t,f}^{(k)})$。使用兩類直通 Gumbel-softmax 估計器來估計$\xi_{t,f}$[11]。$M_{t,f}^{(k)}$定義如下，$M_{t,f}^{k}=|M_{t,f}^{(k)}|·e^{j\theta _{t,f}^{(k)}}$。最后，$M_{t,f}^{(k)}$乘以$X_{t,f}$來估計源$k$如下，$\hat{Y}_{t,f}^{k}=M_{t,f}^{(k)}·X_{t,f}$。

3.2從一個四邊形的角度掩碼

因為我們希望同時提取直接源和混響源，所以分別使用兩對PHM。第一對掩碼，$M_{t,f}^{(d)}$和$M_{t,f}^{(-d)}$，分別將混合物分離為直接源和其余組分。第二對掩碼，$M_{t,f}^{(n)}$和$M_{t,f}^{(-n)}$，將混合物分離為噪聲和混響源。由于PHM保證了混合組分和分離組分在復(fù)雜STFT域中構(gòu)造一個三角形，分離結(jié)果可以從一個四邊形的角度來看，如圖2所示。在這種情況下，由于三個邊和兩個邊角已經(jīng)由兩對phm確定，所以四邊形的第四個邊$M_{t,f}^{(r)}$是唯一確定的。

3.3多尺度目標(biāo)

近年來，多尺度譜圖(MSS)損耗函數(shù)已成功應(yīng)用于一些音頻合成研究中[12,13]。我們不僅將這種多尺度方案納入了頻譜域，而且也納入了類似于[14]的波形域。

學(xué)習(xí)最大化余弦相似度可以被視為最大化信號失真比(SDR)[2]。估計信號$\hat{y}^{(k)}\in R^N$與ground truth信號$y^{(k)}\in R^N$之間的余弦相似損失C定義為：$C(y^{(k)},\hat{y}^{(k)})=-\frac{}{||y^{(k)}||·||\hat{y}^{(k)}||}$，其中$N$表示信號的時間維數(shù)，$k$表示信號類型($k\in \{d,r,n\}$)?？紤]切片信號$y_{\frac{N}{M}(i-1):\frac{N}{M}i}^{(k)}$，其中$i$表示段索引，$M$表示段數(shù)。切信號，正?；臏?zhǔn)則，每個切段被認(rèn)為是一個單元計算$C$。因此，我們假設(shè)是很重要的選擇一個合適的區(qū)段長度單位$\frac{N}{M}$時計算$C$。在我們的例子中，我們使用多個設(shè)置段長度的$g_i=\frac{N}{M_j}$如下：

$$公式3：\mathcal{L}_{w a v}^{(k)}=\sum_{j} \frac{1}{M_{j}} \sum_{i=1}^{M_{j}} C\left(\boldsymbol{y}_{\left[g_{j}(i-1): g_{j} i\right]}^{(k)}, \hat{\boldsymbol{y}}_{\left[g_{j}(i-1): g_{j} i\right]}^{(k)}\right)$$

其中$M_j$為切片段數(shù)。在我們的例子中，$g_i$的集合選擇如下：$g_i\in \{4064, 2032, 1016, 508\}$。

接下來，譜域上的多尺度損耗定義如下

$$公式4：\mathcal{L}_{s p e c}^{(k)}=\sum_{i}\left\|\left|\operatorname{STFT}_{i}\left(\boldsymbol{y}^{(k)}\right)\right|^{0.3}-\left|\operatorname{STFT}_{i}\left(\hat{\boldsymbol{y}}^{(k)}\right)^{0.3}\right|\right\|^{2}$$

式中$i$為$STFT_i$的FFT大小。與原始MSS損失的唯一區(qū)別是，我們將log變換替換為冪律壓縮，因為在之前的語音增強研究中已經(jīng)成功地使用了冪律壓縮[15,16]。我們使用STFT的FFT大小(1024,512,256)，重疊率為75%。最終損耗函數(shù)的定義是將所有分量相加，如下所示：$L_{final}=\sum_{k\in \{d,r,n\}}L_{wav}^{(k)}+L_{spec}^{(k)}$。

4 實驗4.1 復(fù)現(xiàn)細(xì)節(jié)

由于我們的目標(biāo)是同時進行去噪和去混響，所以我們使用熱室聲學(xué)[20]來模擬一個隨機采樣吸收、房間大小、聲源位置和麥克風(fēng)距離的人工混響。我們使用了2秒的語音和噪聲段，并將它們混合成均勻分布的信噪比(SNR)，范圍從-5 dB到25 dB。輸入特征被用作對數(shù)幅譜圖、PCEN譜圖和解調(diào)相位的實/虛部分的通道級聯(lián)。我們使用了AdamW優(yōu)化器[21]，當(dāng)連續(xù)三個階段驗證分?jǐn)?shù)沒有提高時，學(xué)習(xí)速度降低了一半。初始學(xué)習(xí)速率設(shè)置為0.0004。窗口大小和跳大小分別設(shè)置為512 (32ms)和128 (8ms)。

我們還將提出的模型量化為INT8格式，并將模型大小與之前的作品進行了比較。我們的量化模型實驗的目的是減少模型尺寸和計算成本的嵌入式環(huán)境。我們采用[5]中提出的量化數(shù)計算流程來量化神經(jīng)網(wǎng)絡(luò)。此外，采用均勻量化并將零點限制為0的均勻?qū)ΨQ量化方案[22]實現(xiàn)了高效的硬件實現(xiàn)。在實驗中，神經(jīng)網(wǎng)絡(luò)的所有層次都采用量化的權(quán)值、激活和輸入進行處理;只有偏差值以完全精度表示。其他處理步驟，如特征提取和掩碼，是在完全精確的計算。對于編碼器層和解碼器層，我們觀察訓(xùn)練過程中中間張量的尺度統(tǒng)計。然后，在推理過程中，我們使用觀察到的最小值和最大值的平均值來固定激活的尺度。由于每個時間步長內(nèi)部激活的動態(tài)范圍較大，只有GRU層在推理時間內(nèi)被動態(tài)量化。

4.2消融實驗

為了驗證PCEN、多尺度目標(biāo)和FGRU塊的效果，我們分別使用CHiME2訓(xùn)練集和發(fā)展集對模型進行訓(xùn)練和驗證。在CHiME2實驗裝置上進行消融研究。TRU-Net-A表示所提出的方法。TRU-Net-B表示沒有多尺度目標(biāo)訓(xùn)練的模型。TRU-Net-C表示沒有經(jīng)過PCEN特征訓(xùn)練的模型。TRU-Net-D表示沒有FGRU塊訓(xùn)練的模型。我們使用最初的SDR[23]來將我們的模型與其他模型進行比較。結(jié)果如表2所示。很明顯，所有提出的方法都有助于性能的提高。注意，F(xiàn)GRU塊對性能有很大的貢獻(xiàn)。我們還使用CHiME2測試集將提出的模型與其他模型進行了比較。該模型的性能不僅優(yōu)于最近的輕量級模型Tiny- LSTM (TLSTM)及其修剪版本(PTLSTM)[24]，而且優(yōu)于大型模型[16]。

4.3 降噪結(jié)果

通過在大規(guī)模DNS-challenge數(shù)據(jù)集[25]和內(nèi)部采集數(shù)據(jù)集上對模型進行訓(xùn)練，進一步驗證了模型的去噪性能。它在兩個非盲DNS開發(fā)集上進行了測試，1)合成剪輯無混響(合成無混響)和2)合成剪輯有混響(合成有混響)。我們將我們的模型與最近的模型[3,4,17,18,19]進行了比較，這些模型是在2020年Interspeech dns挑戰(zhàn)賽上提交的。采用6個評價指標(biāo):PESQ、cbac、COVL、CSIG、SI-SDR和STOI[26, 27, 28, 29]。請注意，盡管建議使用ITU-T P862.2寬頻帶版本的PESQ (PESQ2)，但少數(shù)研究使用ITU-T P862.1 (PESQ1)報告了他們的得分。因此，我們使用兩個PESQ版本將我們的模型與其他模型進行比較。結(jié)果如表1所示。我們可以看到，TRU-Net顯示了最好的性能在合成沒有混響設(shè)置，而有最小的參數(shù)數(shù)目。在合成混響集，使用比其他模型更少的數(shù)量級參數(shù)，TRU-Net顯示了競爭性能。

4.4 去混響結(jié)果

在包含3000個音頻文件的WHAMR數(shù)據(jù)集的最小子集上測試了同時去噪和去everberation的性能。WHAMR數(shù)據(jù)集由噪聲混響混合和直接源作為地面真實值組成。試驗采用表1中的TRU-Net模型(FP32和INT8)。我們在表3中展示了我們模型的去噪和去everberation性能，以及在相同的WHAMR數(shù)據(jù)集上測試的另外兩個模型。與其他基線模型相比，我們的模型取得了最好的效果，表明了TRU-Net在同時去噪和去everberation任務(wù)中的參數(shù)效率。

4.5聽力測試結(jié)果

使用表1中提出的模型(TRU-Net (FP32))，我們參加了2021年ICASSP DNS挑戰(zhàn)Track 1[25]。為了獲得更好的感知質(zhì)量，我們將估計的直接源和混響源混合在15 dB，并應(yīng)用零延遲動態(tài)范圍壓縮(DRC)。在2.7 GHz Intel i5-5257U和2.6 GHz Intel i7-6700HQ處理器上，處理單幀(包括FFT、iFFT和DRC)的平均計算時間分別為1.97 ms和1.3 ms。TRU-Net的前瞻是0毫秒。聽力測試基于ITU-T P.808進行。結(jié)果如表4所示。該模型在各種語音集上進行了測試，包括唱歌的聲音、音調(diào)語言、非英語(包括音調(diào))、英語和情感演講。結(jié)果表明，與基線模型NSnet2[30]相比，TRU-Net具有更好的性能。

5與先前工作的關(guān)系

由于混合信號相位復(fù)用的次優(yōu)性，近年來相位感知語音增強技術(shù)受到越來越多的關(guān)注。雖然這些工作大多試圖通過相位掩碼或附加網(wǎng)絡(luò)來估計干凈相位，但實際上可以利用余弦定理[31]來計算混合物和源之間的絕對相位差。受此啟發(fā)，[6]提出了一種用于語音分離的絕對相位差旋轉(zhuǎn)方向估計方法。

TRU-Net中使用的FGRU和TGRU與[32]中的工作類似。他們在頻率維度和時間維度上使用雙向長短期記憶(bi-LSTM)網(wǎng)絡(luò)，并結(jié)合基于2d - cnn的U-Net。不同之處是，我們使用bi-LSTM來提高[32]的性能，而我們使用FGRU和單向TGRU來更好地處理在線推理場景，并結(jié)合提出的基于一維cnn(頻率維度)的輕量級U-Net。

6 結(jié)論

在這項工作中，我們提出了TRU-Net，這是一個專門為在線推理應(yīng)用設(shè)計的高效的神經(jīng)網(wǎng)絡(luò)架構(gòu)。結(jié)合提出的PHM，我們成功地演示了單級去噪和實時去everberation。我們還表明，使用PCEN和多尺度目標(biāo)進一步提高了性能。實驗結(jié)果表明，我們的模型與具有大量參數(shù)的最新模型具有相當(dāng)?shù)男阅堋Ｔ谖磥淼墓ぷ髦?，我們計劃在一個過參數(shù)化模型上使用現(xiàn)代剪枝技術(shù)來開發(fā)一個大稀疏模型，在相同的參數(shù)數(shù)量下，它可能比小稠密模型提供更好的性能。

7 參考文獻(xiàn)

[1] Olaf Ronneberger, Philipp Fischer, and Thomas Brox, U-net: Convolutional networks for biomedical image segmentation, in Proc. MICCAI, 2015, pp. 234 241.

[2] Hyeong-Seok Choi, Jang-Hyun Kim, Jaesung Huh, Adrian Kim, Jung-Woo Ha, and Kyogu Lee, Phase-aware speech enhancement with deep complex u-net, arXiv preprint arXiv:1903.03107, 2019.

[3] Umut Isik, Ritwik Giri, Neerad Phansalkar, Jean-Marc Valin, Karim Helwani, and Arvindh Krishnaswamy, Poconet: Better speech enhancement with frequency-positional embeddings, semi-supervised conversational data, and biased loss, in Proc. INTERSPEECH, 2020.

[4] Yanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, and Lei Xie, Dccrn: Deep complex convolution recurrent network for phase-aware speech enhancement, in Proc. INTERSPEECH, 2020.

[5] Benoit Jacob, Skirmantas Kligys, Bo Chen, Menglong Zhu, Matthew Tang, Andrew Howard, Hartwig Adam, and Dmitry Kalenichenko, Quantization and training of neural networks for efficient integer-arithmetic-only inference, in Proc. CVPR, 2018, pp. 2704 2713.

[6] Zhong-QiuWang, Ke Tan, and DeLiangWang, Deep learning based phase reconstruction for speaker separation: A trigonometric perspective, in Proc. ICASSP, 2019, pp. 71 75.

[7] YuxuanWang, Pascal Getreuer, Thad Hughes, Richard F Lyon, and Rif A Saurous, Trainable frontend for robust and far-field keyword spotting, in Proc. ICASSP, 2017, pp. 5670 5674.

[8] Vincent Lostanlen, Justin Salamon, Mark Cartwright, Brian McFee, Andrew Farnsworth, Steve Kelling, and Juan Pablo Bello, Per-channel energy normalization: Why and how, IEEE Signal Processing Letters, vol. 26, no. 1, pp. 39 43, 2018.

[9] Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, and Hartwig Adam, Mobilenets: Efficient convolutional neural networks for mobile vision applications, arXiv preprint arXiv:1704.04861, 2017.

[10] Kyunghyun Cho, Bart van Merri enboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshuas Bengio, Learning phrase representations using RNN encoder decoder for statistical machine translation, in Proc. EMNLP, 2014, pp. 1724 1734.

[11] Eric Jang, Shixiang Gu, and Ben Poole, Categorical reparameterization with gumbel-softmax, in Proc. ICLR, 2017.

[12] Xin Wang, Shinji Takaki, and Junichi Yamagishi, Neural source-filter-based waveform model for statistical parametric speech synthesis, in Proc. ICASSP, 2019, pp. 5916 5920.

[13] Jesse Engel, Lamtharn (Hanoi) Hantrakul, Chenjie Gu, and Adam Roberts, Ddsp: Differentiable digital signal processing, in Proc. ICLR, 2020.

[14] Jian Yao and Ahmad Al-Dahle, Coarse-to-Fine Optimization for Speech Enhancement, in Proc. INTERSPEECH, 2019, pp. 2743 2747.

[15] Hakan Erdogan and Takuya Yoshioka, Investigations on data augmentation and loss functions for deep learning based speech-background separation. , in INTERSPEECH, 2018, pp. 3499 3503.

[16] Kevin Wilson, Michael Chinen, Jeremy Thorpe, Brian Patton, John Hershey, Rif A Saurous, Jan Skoglund, and Richard F Lyon, Exploring tradeoffs in models for low-latency speech enhancement, in IWAENC, 2018, pp. 366 370.

[17] Yangyang Xia, Sebastian Braun, Chandan KA Reddy, Harishchandra Dubey, Ross Cutler, and Ivan Tashev, Weighted speech distortion losses for neural-network-based real-time speech enhancement, in Proc. ICASSP, 2020, pp. 871 875.

[18] Nils L Westhausen and Bernd T Meyer, Dual-signal transformation lstm network for real-time noise suppression, in Proc. INTERSPEECH, 2020.

[19] Yuichiro Koyama, Tyler Vuong, Stefan Uhlich, and Bhiksha Raj, Exploring the best loss function for dnn-based lowlatency speech enhancement with temporal convolutional networks, arXiv preprint arXiv:2005.11611, 2020.

[20] Robin Scheibler, Eric Bezzam, and Ivan Dokmani c, Pyroomacoustics: A python package for audio room simulation and array processing algorithms, in Proc. ICASSP, 2018, pp. 351 355.

[21] Sashank J. Reddi, Satyen Kale, and Sanjiv Kumar, On the convergence of adam and beyond, in Proc. ICLR, 2018.

[22] Raghuraman Krishnamoorthi, Quantizing deep convolutional networks for efficient inference: A whitepaper, arXiv preprint arXiv:1806.08342, 2018.

[23] Emmanuel Vincent, R emi Gribonval, and C edric F evotte, Performance measurement in blind audio source separation, IEEE transactions on audio, speech, and language processing, vol. 14, no. 4, pp. 1462 1469, 2006.

[24] Igor Fedorov, Marko Stamenovic, Carl Jensen, Li-Chia Yang, Ari Mandell, Yiming Gan, Matthew Mattina, and Paul N Whatmough, Tinylstms: Efficient neural speech enhancement for hearing aids, in Proc. INTERSPEECH, 2020.

[25] Chandan KA Reddy, Harishchandra Dubey, Vishak Gopal, Ross Cutler, Sebastian Braun, Hannes Gamper, Robert Aichner, and Sriram Srinivasan, Icassp 2021 deep noise suppression challenge, arXiv preprint arXiv:2009.06122, 2020.

[26] ITU-T Recommendation, Perceptual evaluation of speech quality (pesq): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs, Rec. ITU-T P. 862, 2001.

[27] Philipos C Loizou, Speech enhancement: theory and practice, CRC press, 2013.

[28] Jonathan Le Roux, ScottWisdom, Hakan Erdogan, and John R Hershey, Sdr half-baked or well done? , in Proc. ICASSP, 2019, pp. 626 630.

[29] Cees H Taal, Richard C Hendriks, Richard Heusdens, and Jesper Jensen, A short-time objective intelligibility measure for time-frequency weighted noisy speech, in Proc. ICASSP, 2010, pp. 4214 4217.

[30] Sebastian Braun and Ivan Tashev, Data augmentation and loss normalization for deep noise suppression, in International Conference on Speech and Computer, 2020, pp. 79 86.

[31] Pejman Mowlaee, Rahim Saeidi, and Rainer Martin, Phase estimation for signal reconstruction in single-channel source separation, in Thirteenth Annual Conference of the International Speech Communication Association, 2012.

[32] Tomasz Grzywalski and Szymon Drgas, Using recurrences in time and frequency within u-net architecture for speech enhancement, in Proc. ICASSP, 2019, pp. 6970 6974.

關(guān)鍵詞：

相關(guān)新聞