什么是麦克风阵列
麦克风阵列是由一定数目的麦克风组成,对声场的空间特性进行采样并滤波的系统。
目前常用的麦克风阵列可以按布局形状分为:线性阵列,平面阵列,以及立体阵列。其几何构型是按设计已知,所有麦克风的频率响应一致,麦克风的采样时钟也是同步的。
麦克风阵列的作用
麦克风阵列一般用于:
声源定位,包括角度和距离的测量
抑制背景噪声、干扰、混响、回声
信号提取
信号分离
声源定位技术
利用麦克风阵列计算声源距离阵列的角度和距离,实现对目标声源的跟踪。
基于TDOA(Time Difference Of Arrival,到达时间差)的声源定位技术。估计信号到达两两麦克风之间的时间差,从而得到声源位置坐标的方程组。然后求解方程组即可得到声源的精确方位坐标。
信号的提取与分离
通过波束形成技术,在期望方向上有效地形成一个波束,仅拾取波束内的信号,从而达到同时提取声源和抑制噪声的目的。
语音去混响
混响(Reverberation)是指声波在室内传播时,被墙壁、天花板、地板等障碍物形成反射声,并和直达声形成叠加的现象。
混响的作用
混响是声学中最重要的现象之一
合适的混响会使得声音圆润动听、富有感染力。
混响时间太长会使得声音含糊不清,听不清楚。
混响是建筑声学中要重点考虑的问题
演讲厅要短一些的混响时间,比如北京学术报告厅混响时间为1s
交响乐则需要长一些的混响时间,比如上海音乐厅混响时间为1.5s,维也纳音乐厅为2.05s
过大的混响会带来音素的交叠掩蔽现象,严重影响语音识别效果,尤其是远距离语音识别。
目前主流采用麦克风阵列+深度学习的方式来进行去混响。
线性麦克风阵列
加性麦克风阵列( Additive Microphone Array)
阵列的输出是各阵元的加权和
最优波束方向可调
结构简单、方便布局
适用于车载、家电等场合
差分麦克风阵列( Differential Microphone Array )
阵列的输出是两两麦克风之间的加权相减
最优波束方向只能在末端方向
适用于耳机通话等场合
平面麦克风阵列
平面麦克风阵列(Planar Microphone Array )
实现平面360度等效拾音
麦克风个数越多,空间划分越精细,语音增强和降噪效果越好
广泛用于智能音箱和交互机器人上
立体麦克风阵列
立体阵列麦克风(3-D Microphone Array )
真正实现全空间360度无损拾音
解决了平面阵高俯仰角信号响应差的问题
麦克风阵列发展趋势
多传感器的融合。声学麦克风,光学麦克风,骨传导麦克风的多模态降噪。提高信噪比,以及适应不同的环境。
分布式麦克风阵列。客厅,卧室,厨房,餐厅,手持各类麦克风的数据实时融合处理。在更大范围内实现真正的全方位拾音。
基于深度学习的麦克风阵列。用多麦克风+神经网络,来取代双耳结构+大脑信号处理机制。
最终目标:达到人类听力水平;用两个麦克风让机器能听清10米-20米的声音;实现鸡尾酒会效应。
本地和云端识别紧耦合,配合使用也是一个大的趋势。
|