为什么数以千计的虚拟麦克风如此有效?

为什么数以千计的虚拟麦克风如此有效?

2022-12-29

Nureva的Microphone Mist™技术通过数以千计的虚拟麦克风均匀填充满整个空间，保证出色的拾音和听音效果。这项技术是保证Nureva音频系统非凡性能的关键。那么究竟什么是虚拟麦克风？它们又会对日常远程会议产生何种影响？

数以千计的虚拟麦克风不仅仅在房间内增加了额外的拾音点，还是对现有的实体麦克风和beamformer系统的概念性颠覆。它们改变了我们对会议空间中声音拾取的基本理解。

使用专注于离散三维位置而不依赖广泛覆盖区域的方法，我们可以提供优化的分析和解决方案，从而使音频会议系统拾音更加精确、功能更加强大。换句话说，如果我们不再对所需声源方向进行广泛覆盖，而是分析房间内数以千计个空间点（点位）的声音，就会有不一样的效果。虚拟麦克风组成了这些三维空间点，使阵列可以专注于这些点位的拾音。

通过从三维角度分析房间声学的新方法，可以确定房间内数千个点位中每个点位的音频特性。然后，这些丰富的声音信息可以被独立地评估可用性和质量，并相应地对系统进行自动调整。

音频会议系统现状

目前有两种常见的音频会议麦克风拾音方法。

第一种方法是配置一支或多支独立麦克风（如图1）。采用这种方法构建的系统可能很简单，如在房间内的讲话者身上佩戴领夹式麦克风；也可能很复杂，如在桌子上配置一系列分布式鹅颈麦克风或在天花板上安装悬吊式麦克风。

这种方法能够在小型目标区域内实现特定覆盖，或在由麦克风指向性模式定义的大型区域内实现广泛覆盖。虽然当讲话者靠近麦克风时音频拾取性能可以很好，但当讲话者远离麦克风或改变讲话方向时，拾音性能会显着降低。移动讲话者的声音尤其难以被拾取，因为当他们边走边说时，很可能会离开桌面麦克风的覆盖区域，讲话者就被限制在麦克风系统有限的覆盖范围内。因此，这种麦克风拾音方法不适合需要讲话者变换位置（如使用演示设备阐述观点）的动态型会议场景。

如果多个声源集中在某一麦克风的覆盖区域内，系统就无法进行区分。如果所有这些声源都是有用的，就不是问题，但如果其中一个或多个声源是不需要的噪声（如供热通风与空气调节系统噪声、键盘敲击声或纸张移动声），那么就会比较麻烦——麦克风会拾取该覆盖内所有的声音，需要额外进行后处理来消除不需要的噪声。

图1 桌面麦克风覆盖示例

另一种常见的音频会议麦克风拾音方法是采用beamforming阵列。这些由实体麦克风组成的beamforming阵列基于预期房间用途被预先配置了覆盖区域（如图2）。这种阵列旨在增大目标区域内的声音，使其增益高于独立麦克风系统的标准增益，并衰减目标区域外的声音，从而显著降低混响和不需要的噪声。这种拾音系统被称为beamformer，因为每个区域都是从麦克风阵列的位置开始并向外延伸，通常会延伸到房间边界处。

一个beamforming阵列可能只覆盖一个区域（如波束追踪阵列），也可能根据使用情况覆盖多个区域（如多区阵列）。由于波束可以缩窄，因此系统可以通过聚焦特定覆盖区域来减少不需要的噪声。然而，即使窄波束也无法提供足够的空间粒度来提供高空间分辨率。也就是说，波束是根据方向而不是位置来处理声音。如果波束内有不需要的噪声源，beamforming系统就会产生与独立麦克风系统相同的限制。不需要的噪声仍然需要通过专门的噪声滤波器和算法进行后处理。如果讲话者位于波束之外，例如在显示设备边或在整个房间内移动，就无法确定自己是否在beamformer区域内。在独立麦克风系统中，讲话者可以看到实体麦克风的位置，而在beamforming阵列中，讲话者无法确定beamformer的指向或配置指向，因此可能会无意中偏离预置的覆盖区域。

图2 Beamforming阵列覆盖示例

这两种常见方法都是在预配置的覆盖区域内拾取最响亮的声源（可能来自讲话者，也可能不是），并尝试优化音频性能。但在每种方法中，整个房间的声学覆盖可能都不够充分，因为声学空间分辨率和密度较低，对整个房间进行连续声学监测通常是不可行的。此外，这两种方法都基于房间的预期用途。如果房间的实际用途偏离了预期用途，则系统通常必须进行重新配置。广泛覆盖的拾音方法很难获得有关房间内所有声源的声学特性和精确点位的详细信息。

针对以上情况，Nureva开发了一种独特的创新方法，通过以高空间分辨率全面分析三维空间来覆盖整个拾音区域。这使得麦克风系统能够在数以千计的独立点位获得精确的声学信息。这种方法测量空间粒度非常高，可以同时识别和管理所有点位的声学声源。因此，该系统可以提供全房间的声学视角，将音频拾取性能优化到在较低空间分辨率系统中根本不可达到的水平。

实现声学空间

高分辨率拾音的新方法

Nureva意识到，如要改善会议空间的音频体验，需要一种新的方法。我们的目标是通过测量整个声学空间中多个离散点位的声音特性来获得更高质量、更精确的声学信息，而不是简单地优化来自一个或多个方向的有源声源。我们需要一种全新的创新方法，从而比其他音频会议系统在声学上可以更精确地解析空间。

为了实现这一目标，我们需将房间视为三维声学空间（如图3）。Nureva开发了专利的麦克风阵列技术，即Microphone Mist技术，可以通过数以千计均匀分布的虚拟麦克风在三个维度上解析声学空间，从而实现全覆盖网格，以比传统的拾音方法更高的分辨率和覆盖密度提供精确的声学信息。

图3 Microphone Mist技术

高空间分辨率的概念有助于理解为什么Nureva的声学空间拾音方法如此独特。虽然这是一种新的音频会议拾音方法，但它与其他领域的高分辨率技术相似。

为什么需要高分辨率？

当您购买电视机或摄像机时，图像分辨率是需要重点关注的性能规格之一。4k图片质量比1080p的图片更好——更高的分辨率能够带来更好的体验。其他格式和技术，如色彩、音乐、图像甚至望远镜也是如此。更高的分辨率意味着更多更高质量的信息和处理，可以带来更好的体验。

例如，图4记录了调色板上位深变化产生的影响。当图像的位深度为2时，会得到4种色彩选项。当分辨率增加到14bit时，就会得到16,384种色彩项。随着位深度的增加，图像中调色板的分辨率也在增加，这意味着可以更精确的解析色彩细节。显然，更高位深度的色彩描述更适合显示和分析图像。

图4 色彩位深

在图5中，与高分辨率的300dpi图像相比，低分辨率4dpi的吉他图像是块状的。提高分辨率意味着可以显示更精确和详细的图像。在低分辨率图像中模糊不清的细节在高分辨率图像中变得非常明显，从而可以对图像数据进行更好的处理和分析。

图5 图像分辨率

同样音乐中也是如此。图6的表格显示，4bit的录音比24bit的录音的分辨率要低。随着位深度的增加，会得到更高的信噪比、更高的动态范围和更少的量化误差。

图6 音乐分辨率

更高的位深度和由此带来的数据分辨率提高的优势在数字平台上得到了很好的理解和共享。这些优势也同样适用于将声学空间细分为越来越精细的粒度细节的音频麦克风系统。如果我们将空间分解为更小的声学区域，就可以更好地描述和理解声源和空间，从而根据声源自身的声学特性进行优化处理。

声学空间的分辨率

将空间划分为声学区域来形成充足的覆盖范围对音频会议大有裨益。房间可以被划分为实体麦克风或虚拟麦克风覆盖区域。在配置独立麦克风和beamformer后，每个区域以麦克风系统的孔径中心开始，由每个配置区域的极坐标图形状来定义。通过Microphone Mist技术，每个区域都以三维空间中每个虚拟麦克风的位置为中心。每个位置都可以被分配一个单独的空间分辨率值。总的分辨率值表示麦克风系统在三维空间中能够分辨多少个空间粒度点。

图7a和7b显示了空间中配置一支独立麦克风和多支分布式独立麦克风的覆盖情况。如果我们为每个覆盖区分配一个空间区域值，在配置一支独立麦克风的情况下，这个值从实体麦克风的中心开始，我们可以看到一支麦克风有1个单独的空间区域，空间中总共有1个空间区域（如图7a）。在配置多支分布式独立麦克风的情况下，显示了3个空间区域，总空间分辨率值为3（如图7b）。尽管覆盖区域很大，但麦克风系统无法分辨单个区域内的各个声源，这导致总空间分辨率值较低。就像色彩和图像一样，我们将声学空间划分的越精细，在测量和描述声学空间时的空间分辨率就越高。

图7a 单支独立麦克风空间分辨率示例

图7b 多支独立麦克风空间分辨率示例

图8a和8b显示了通用的beamformer覆盖模式。通过为每个区域分配一个单独的空间区域值，可以应用相同类型的量化。图8a显示一个三区系统的空间分辨率值为3。即使在复杂的实际应用中，覆盖区域通常也限制在几十个以下，在本示例中有6个区（如图8b），空间分辨率为6。显然，beamformer可以通过较小的总空间分辨率值来描述整个空间。

图8a Beamformer空间分辨率示例

图8b Beamformer空间分辨率

这两个系统都能够在每个覆盖区域拾取声源，就像4dpi分辨率的图像可以将宽泛的颜色显示为模糊的斑点一样。但在任何一个区域内区分声源很难。如果某一声源在覆盖区之外，就会被完全忽略。上述两种常见的音频会议麦克风拾音方法都无法将空间划分为高密度的声学网格，这限制了麦克风系统识别声源及其特性的方式。

综上所述，我们是要选择空间分辨率较低的模糊声像还是蕴含高分辨率信息和数据的声学空间呢？

为什么数以千计的

虚拟麦克风如此有用？

将空间划分为更小的区域可以实现更精确的聚焦，这是真正实现全空间精准覆盖的唯一方法。Microphone Mist技术实现了在空间内创建数以千计均匀分布的点位的理想拾音方式。

图9是一个拥有数以千计独立虚拟麦克风点位的系统示例，通过Microphone Mist技术，总空间分辨率达到8,192。这是因为，与其他方法一样，每个点位都被分配了一个空间分辨率值。Microphone Mist技术创建了数以千计同时存在的虚拟麦克风区域。与色彩和图像的高分辨率优势一样，很明显，更高的分辨率对于高精度和详细的声音信息收集是至关重要的。在声学领域，Microphone Mist技术可以将一个房间划分为间隔非常精细的声学点位。

图9 通过数以千计的虚拟麦克风实现空间高分辨率覆盖

通过将声学空间划分为分辨率更高的空间三维网格，Nureva系统可以根据每个点位的自身特点进行监测和分析。这意味着在每个虚拟麦克风点位，系统都会进行测量、分析、定位、处理和报告，从而形成整个空间的综合声像呈现。

由于系统不断收集每个点位的声学信息，因此可以在整个覆盖区域内的相对三维空间中处理单个声源，不会产生因优化某一声源而忽略房间其他位置的情况。当一个人在边说话边打字时，Microphone Mist技术的空间分辨率可以专注于他嘴巴的位置，而弱化键盘的位置。这样，系统就可以区分出需要和不需要的声音点位。在房间边界区域的讲话者（如站在显示设备前），不必担心他们是否还在麦克风覆盖区。讲话者可以边说边走，不必考虑麦克风系统的配置情况。在讲话者走动时，会通过微小的无缝过渡实时过渡到每个独立的虚拟麦克风，因为房间内布满了均匀分布的虚拟麦克风。无论讲话者走到房间的哪个位置，都能保证一致的高质量拾音效果。讲话者可以在房间内自然地坐下、弯腰、移动，自然的发言，随意做手势或动作，而不必担心影响拾音效果。

对于如供热通风与空气调节系统噪声等不需要的噪声源，系统可以通过智能声音定位技术对其进行独特处理。这项技术针对并聚焦于房间内声源的具体位置，即使是在具有多个声源的复杂声学环境中也是如此。每个有源声源都与三维空间中的一个点位相关，专有的基于逻辑的处理可以决定如何以及何时将系统集中到新声源上。

Nureva系统具有更高的空间分辨率，因此可以获得更精确的声音信息，从而更好地优化麦克风拾音效果、更精确的进行后数据处理分析。

放眼未来

综上所述，数以千计的虚拟麦克风确实很有效果——它们改变了我们对声学空间的理解。在不断变幻的时代，时空距离和疫情等原因所产生的大量不确定性的对音频会议系统提出了更高的要求，因此，高性能的音频会议系统变得愈发重要。

*文章转自Nureva官方网站
中英文版本有差异之处，以英文版本为准