风噪的特性和影响
风噪声,专业名称为空气动力噪声,是由流场中运动的物体与物体之间的作用产生,或者是由流体自身的湍流运动导致的流体之间的相互作用产生[1]。不同的场景下风噪声的产生机理是不同的。日常生活中主要有两个场景受风噪声影响严重,一是户外声频采集,二是高速行驶的汽车车厢内,此外超高速飞行器和风洞设备也会受到风噪声的影响。由于篇幅限制本文着重关注声频采集尤其是语音采集中的风噪问题及其抑制技术。
图1 风噪形成原理示意图[2]
声频采集场景中的风噪声主要由传声器膜附近的湍流气流引起,使传声器产生相对较高的信号电平。风噪声主要发生在低频0~500Hz范围内,向高频迅速衰减[3]。突发的阵风常常引起持续时间为几到几百毫秒的风噪。并且由于阵风的突发性,风噪声可能会产生超过标称语音振幅的高幅值[4],因此风噪声具有显著的非平稳特性。
图2 典型风噪声的声谱图和波形[2]
风噪声会对声频信号造成严重的破坏。如表1所示,无论是手持姿势(HHP)还是免提姿势(HFP),风噪声均会显著降低语音信号的信噪比,信噪比最差低于-20dB。同时风噪声的出现也会明显降低语音的质量(PESQ)和可懂度(STOI),因此要提高声频采集质量必须对风噪进行抑制。
表1 不同强度的风噪声对语音信号质量的影响[4]
风噪抑制技术
声学方法
防风罩 常见于手持式传声器以及专业枪式传声器。有海绵、人造毛皮、铁网等多种材料。原理主要是降低传声器振膜附近的空气流速,打散气流减小湍流的产生,作用等效于声学低通滤波器。
图3 不同种类的防风罩(图片来自网络)
在TWS耳机上,也应用防风罩来抑制风噪声。其最大的优势在于简单和可靠性高,不足之处在于防风罩需要增大尺寸来提升降噪量,而像手机、TWS耳机等小型设备,防风罩的效果非常有限。
图4 TWS耳机上的防风罩(图片来自网络)
抗风噪导管 华为FreeBuds Pro采用了一种独特的抗风噪导管设计,传声器的外侧由一条缝隙前后联通,声音将从这里进入耳机抵达传声器。从侧面吹来的风会被外壁阻挡,而前后吹来的风并不会被阻挡,也会从缝隙进入,但是由于气体的康达效应,大部分的气流不会流向传声器,而是沿着缝隙的内壁移动。这种“以疏代堵”的方法,为风噪抑制提供了新的思路。
图5 抗风噪导管剖面图(图片来自网络)
加速度计拾音 声音本质是振动,因此可以通过加速度计采集在固体中传播的声音。为语音拾音设计的骨导传感器VPU(Voice Pick Up),本质也是一种高性能加速度计,可通过采集人下颌骨的振动信号来拾取语音。由于风噪只存在于气导声中,骨导声不受影响,因此在拾取语音时骨导传感器可以直接规避风噪问题。目前已有多款TWS耳机搭载骨导传感器,与MEMS传声器配合使用。
图6 骨导和气导声传播示意图(图片来自网络)
信号处理方法
只应用声学方法通常不能很好地解决风噪问题,因此人们也尝试通过信号处理方法抑制风噪。信号处理中传统的降噪方法主要有维纳滤波[6]和谱减法[7],但是这两种方法建立在噪声平稳或准平稳假设之上,无法很好的抑制风噪声。信号处理风噪抑制框架如下图所示。
图7 信号处理风噪抑制框架[2]
从框图中可以看出,风噪抑制算法的研究可以从风噪估计/信噪比估计、增益估计、多通道方法和语音合成四个方面展开。下文中使用λ表示时间窗,μ表示频率。
风噪声估计
要想有效抑制风噪这种强非平稳性的噪声,关键在于准确估计噪声的短时功率谱(STPS)[2]。因此第一步通常是对输入的带噪信号做STFT变换,将信号转换到STFT域X(λ,μ)。然后进行进一步的处理。
形态学方法 形态学方法[8]将带噪信号的声谱图看成图像,其中语音成分通常有明显的谐波结构,而风噪的影响可以看作语音谐波结 构中的连接部分。形态学方法的目标就是估计出声谱图中的风噪掩膜。
算法首先根据设定的阈值筛选出声谱图中的高能量部分并计算其关于时间的偏导 ,
然后计算声谱图的上升沿 ,
再计算起点 ,
最后根据经验选择的阈值通过比较 中的信号能量确定完整的风噪掩膜 。这一方法的缺点是低频的语音信号可能会包含进风噪掩膜中被滤除。
图8 形态学方法估计风噪掩膜步骤[2]
噪声模板方法 该方法的基本思想是将风噪的声谱图分解为谱包络和精细结构,倒谱分析可以实现这个目的。首先计算带噪信号的倒谱系数。
保留带噪信号倒谱的高阶系数,处理低阶系数。将低阶系数变换回STFT域生成谱包络。
将谱包络与预先训练好的风噪声参考谱包络模板 进行比较,取平方和误差最小的模板 计算低阶倒谱系数来替换带噪信号的低阶倒谱系数,并与带噪信号的高阶倒谱系数组合,经逆倒谱运算即可得到风噪短时功率谱的估计。
图9 噪声模板方法[2]
谱质心方法 谱质心是信号能量关于频率的一阶矩,可以反映信号主要能量的频率分布。谱质心方法的核心思想是通过谱质心和其他信号特征分析带噪信号的组成成分,先对信号进行分类,然后进一步决定风噪STPS的估计策略。
计算谱质心 可以将带噪信号分为三类[10]:纯风噪( <200Hz)、风噪语音混合信号(200Hz< <550Hz)、纯语音( >550Hz)。
图10 不同信噪比下谱质心的差异[2]
通过谱质心和短时平均等特征对输入带噪信号进行三分类。第一步判断是否为纯语音,若为纯语音则该时频窗风噪的STPS为零。第二步判断是否为纯风噪,若为纯风噪则风噪的STPS就等于输入信号的STPS。若信号被判断为语音和风噪的混合信号,则进行进一步的风噪估计,方法包括最小拟合估计法[10]和自适应音高估计法[11]等。
图11 谱质心方法流程图[2]
深度学习方法 风噪声可以通过深度神经网络来估计,[12]提出通过前向深度神经网络(FNN)来估计风噪声的幅度谱。方法是先估计语音信号和风噪声的理想幅值掩膜(IAM) 和 ,然后从带噪信号中分离出语音成分和风噪成分。
使用两个FNN分别估计 和 ,如下式所示, 和 表示网络参数。神经网络的训练使用[13]中方法使估计的信号和风噪声幅度谱与目标幅度谱的均方误差最小。
图12 深度学习方法流程图[12]
增益估计
如图7所示,基于频谱滤波的风噪抑制方法重点是求解增益。传统方法如维纳滤波法和谱减法不能取得很好的效果,下面总结几种增益的求解算法。
决策导向信噪比估计 该方法[14]在维纳滤波的框架下提出了一种更新先验信噪比 的方法求解增益 。
风噪抑制系统的后验信噪比估计 可由下式得到。该方法可以提升被增强语音的主观质量,尤其是减少“musical tones”。
递归增益的谱减法 该方法[8]的目的是为了避免单个离群值对增益计算造成的影响。因此引入一种使用前一时频块增益的回归运算来计算当前时频块的增益。
软可听噪声掩膜法 该方法[15]的基本想法是根据心理声学模型在噪声抑制和引入失真之间寻找平衡,即令下式最小。
其中 是根据心理声学模型计算得到的掩膜阈值。由上式推导可得增益估计值如下,参数α可设经验值1。
多传声器风噪抑制技术
当前最新的智能手机和TWS耳机配备有2个或更多的传声器。因此可以考虑基于双传声器的风噪抑制方法。
相关加权方法 该方法[16]的思想就是利用语音和风噪的相关性差异,使用幅度平方相关(MSC) 来计算增益,
差分阵列方法 该方法[17]利用了传声器阵列对于不相关噪声(如风噪声)比较敏感的特点来降风噪,引入功率比的概念,
其中 和 定义如下,
功率比可以有效分离语音和风噪,如下图所示。从图中可以看出,当传声器间距较小时( )功率比可以较好的分离风噪声和语音。增益函数通过计算纯净语音功率比和带噪信号功率比的比值确定。
图13 风噪声和语音功率比[2]
复相关风噪估计方法 根据[18],假设传声器x和y处的风噪不相关且能量相当,传递函数也相似,则可以得到如下关系,
于是风噪声的功率谱密度可以用下式来估计,
在信号DOA已知的情况下引入复相关的相位信息 [19],
对于相关的语音信号, ;而对于不相关的风噪声, 呈现均匀分布。
图14 语音与风噪声复相关的相位信息分布[2]
风噪声的STPS估计由下式给出。
部分语音合成
实现风噪场景下的语音增强,除了通过抑制风噪,还可以通过部分语音合成的方式。称其为部分语音合成是因为算法保留了原始带噪信号中的不受风噪影响的高频语音(主要为清音),只合成受风噪声影响严重的低频语音(主要为浊音)。实现方法如下图所示,系统可以在抑制风噪的同时合成语音,二者结合生成对语音信号的估计。
图15 结合语音生成的风噪抑制框架[2]
基于重建的部分语音合成 该方法[20]的基本思想是关注被风噪破坏的低频语音部分,将问题转化为带限语音的增强问题。语音生成部分采用线性预测编码(LPC)实现。带噪语音信号通过截止频率 的高通滤波器保留未被风噪影响的高频部分,滤波器截至频率由下式给出。
纯风噪上限频率 和语音重构上限频率 可根据经验取值(100Hz和1500Hz)。原始信号中包含风噪声的低频部分由人工合成的语音替代。
图16 基于重建的部分语音合成框图[2]
基于语料库的部分语音合成 与基于重建的部分语音合成相比,该方法的主要区别是引入了预先训练好的语音信息,方法的流程图如下图所示。方法的主体部分由三部分构成,一是语音合成,不同点在于该方法的激励信号通过音高模板循环(TPC)生成,声道滤波器系数通过比较特征向量的相似程度在预先训练好的字典中寻找合适的系数。二是计算用于结合风噪估计和语音合成的二值掩膜,三是使用传统噪声抑制手段抑制残留噪声,具体实现方案参见[21]。
图17 基于语料库的部分语音合成框图[2]
展望
到目前为止,人们从多个角度出发,想出了多种抑制风噪的方案并取得了巨大的进展,但距离完全解决声频采集中的风噪问题仍有很长的路要走。例如在大风噪情况(SNR<-10dB)时语音增强算法失效问题,实时风噪抑制问题等还没有得到很好的解决。作为声学领域最具挑战的课题之一,风噪问题还需要更多能人志士投身其中,继续研究。
参考文献
[1] 戈尔茨坦. 气动声学[M]. 国防工业出版社, 2014.
[2] Nelke C M. Wind Noise Reduction: Signal Processing Concepts[D].2016.
[3] Fisol U M M, Ripin Z M, Ismail N A, et al. Wind noise analysis of atwo-way radio[C]. 2013 IEEE International Conference on Smart Instrumentation,Measurement and Applications (ICSIMA). 1–5.
[4] Nemer E, Leblanc W. Single-microphone wind noise reduction byadaptive postfiltering[C]. 2009 IEEE Workshop on Applications of SignalProcessing to Audio and Acoustics. : 177–180.
[5] Nelke C M, Vary P. Measurement, analysis and simulation of windnoise signals for mobile communication devices[C]. 2014 14th InternationalWorkshop on Acoustic Signal Enhancement (IWAENC). 327–331.
[6] LIM J S,OPPENHEIM A V. Enhancement and bandwidth compression of noisy speech[J].Proceedings of the IEEE, 1979, 67(12): 1586–1604.
[7] BOLL S.Suppression of acoustic noise in speech using spectral subtraction[J]. IEEETransactions on Acoustics, Speech, and Signal Processing, 1979, 27(2): 113–120.
[8] Hofmann C,Wolff T, Buck M, et al. A Morphological Approach to Single-Channel Wind-NoiseSuppression[C]. IWAENC 2012; International Workshop on Acoustic SignalEnhancement. 1–4.
[9] Kuroiwa S, Mori Y, Tsuge S, et al. Wind noise reduction method forspeech recording using multiple noise templates and observed spectrum finestructure[C]. 2006 International Conference on Communication Technology. 1–5.
[10] Nelke CM, Chatlani N, Beaugeant C, et al. Single microphone wind noise PSD estimationusing signal centroids[C]. 2014 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). 7063–7067.
[11] Nelke CM, Vary P. Wind noise short term power spectrum estimation using pitch adaptiveinverse binary masks[C]. 2015 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). 5068–5072.
[12] Bai H, GeF, Yan Y. DNN-based speech enhancement using soft audible noise masking forwind noise reduction[J]. China Communications, 2018, 15(9): 235–243.
[13] Wang Y,Narayanan A, Wang D. On Training Targets for Supervised Speech Separation[J].IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(12):1849–1858.
[14] Ephraim Y, Malah D. Speech enhancement using a minimum-mean squareerror short-time spectral amplitude estimator[J]. IEEE Transactions onAcoustics, Speech, and Signal Processing, 1984, 32(6): 1109–1121.
[15] Yu R. Speech enhancement based on soft audible noise masking andnoise power estimation[J]. Speech Communication, 2013, 55(10): 964–974.
[16] Franz S,Bitzer J. Multi-channel algorithms for wind noise reduction and signalcompensation in binaural hearing aids[C]. IWAENC 2010; International Workshopon Acoustic Echo and Noise Control. Tel Aviv, Israel.
[17] ELKO G W.Reducing Noise in Audio Systems: USA, US7171008 B2[P]. 2007-01-30.
[18] Dörbecker M, Ernst S. Combination ofTwo-Channel Spectral Subtraction and Adaptive Wiener Post-Filtering for NoiseReduction and Dereverberation[C]. European Signal Processing Conference(EUSIPCO). Trieste, Italy.
[19] Nelke CM, Vary P. Dual Microphone Wind Noise Reduction by Exploiting the ComplexCoherence[C]. Speech Communication; 11. ITG Symposium. Erlangen, Germany.
[20] Nelke CM, Nawroth N, Jeub M, et al. Single microphone wind noise reduction usingtechniques of artificial bandwidth extension[C]. 2012 Proceedings of the 20thEuropean Signal Processing Conference (EUSIPCO). Bucharest, Romania: IEEE.
[21] Nelke CM, Naylor P A, Vary P. Corpus based reconstruction of speech degraded by windnoise[C]. 2015 23rd European Signal Processing Conference (EUSIPCO). Nice:IEEE: 864–868.