楼氏洞见丨利用音频源分类提高音频人工智能在日常设备中的实用性

楼氏洞见丨利用音频源分类提高音频人工智能在日常设备中的实用性

2021-06-21

从“智能”到“实用”的飞跃。随着专为高级音频和机器学习应用程序而设计的音频边缘处理器解决音频源分类的难题，智能家居设备的实用性将不断提高。

本文由楼氏电子Raj Senguttuvan和Vikram Shrivastava合作撰写。

人工智能（AI）在我们的日常生活中越来越广泛和深入。

人工智能和机器学习（ML）进入家庭仍处于早期阶段，但潜力无限。随着AI功能的不断增加，市场每年都会推出新设备和新电器。通过这些设备生成的数据，设备制造商能够了解用户习惯，并使用ML算法预测用户未来的使用模式，从而提供更好的用户体验。

在未来的智能家居中，AI可以根据预设的日常程序，通过对环境的随时感知，自动控制灯光、电器和消费电子产品。例如，智能恒温器将能够了解不同家庭成员的喜好，根据他们的声音特征识别他们是否在家里，并根据个人使用记录在本地调节温度。同样，除了具有语音控制功能外，智能洗衣机还能够自动感应负载不平衡或漏水现象，并能够调整设置或发送警报以防止发生故障。具有AI功能的智能冰箱能够识别食物和理解消费模式，会在适当的时候自动提供购物和消费建议。另外，智能显示器或镜子能够识别用户的语音或音频事件，并自动提供建议或提醒。

以边缘技术实现智能化

虽然人工智能可能会对我们家庭生活的各个方面产生积极影响，但是有些用户可能会因为隐私等问题而对AI的作用持谨慎态度。当用户的个人数据发送到云端进行处理时，这些问题会更加严重。有几次数据泄露事件都是黑客拦截并窃取了消费者的个人数据。除此之外，还有带宽和延时限制问题，因此许多设备制造商越来越多地考虑在设备中使用边缘处理器来本地运行ML任务。一些市场研究报告显示，由于采用基于边缘的ML技术，边缘处理器的出货量增长将超过25%。

为了在智能家居中实现设备“智能化”，有几种ML算法可以使用。在大多数应用中，这些算法可以识别用户身份、用户动作并学习用户行为，以便自动执行任务或提供建议和提醒。在ML术语中，一个分类问题是识别用户身份或用户动作。在本文中，我们专门介绍音频源分类。

高级音频和语音识别

具有高级音频和语音识别功能的智能家居设备和电器可以使用声音场景分类和检测场景内声音事件来识别用户、接收命令并调用动作。用户在家里的活动是一个丰富的声音信号数据集，这些声音信号包括语音。虽然语音是最具信息性的声音，但其他声音事件往往也具有有用的信息。讲话期间的笑声或咳嗽声、婴儿哭声、闹铃响声或开门声等，都能提供有用的数据来驱动智能动作。

事件识别的过程基于特征提取和分类。在最近的文献中已经公开了几种用于音频事件（AE）识别的方法。这些方法背后的基本原理是，独特的声音事件特征与声音背景特征不同。音频源分类算法能够检测和识别声音事件。这个过程分为两个阶段 – 1) 检测声音事件；2) 分类。检测的目的是首先识别前景事件和背景音频，然后打开分类器对声音进行分类。

预计未来的智能家居设备将同时具有音频事件识别和自动语音识别功能。图1展示了这种智能家居系统的一般概念。

音频事件识别是对自动语音识别（ASR）的补充，可以驱动智能操作

通过音频源分类识别声音事件

目前已有多种信号处理和机器学习技术应用于音频分类问题，包括矩阵分解含声、字典学习、小波滤波器组和最近发展的神经网络。卷积神经网络（CNN）能够学习和识别代表不同声音的模式，即使部分声音被其他来源（如噪声）所掩盖也能识别，因此广受欢迎。然而，CNN依赖于大量标记数据训练系统。尽管语音由于移动设备和智能音箱大量采用ASR而拥有大规模的音频语料库，但非语音环境音频信号的标记数据集相对较少。近年来发布了一些新的数据集。预计随着智能家居设备的普及，非语音声音事件的音频语料库将持续增长。

声音事件识别软件和工具

使用源分类的音频事件识别软件可通过多个算法供应商获得，包括Sensory、Audio Analytic和Edge Impulse等供应商。这些供应商提供对模型进行预训练的声音库，同时还提供用于构建模型和识别自定义声音的工具包。在边缘处理器上实现音频事件识别时，必须认真考虑如何权衡功耗与准确性的问题。

还有多个开源库和模型可供选择。在此，我们基于YAMNet [Yet another Audio Mobilenet Network（还有另一个音频移动网络）]提供音频事件分类的结果。YAMNet是TensorFlow中心的开源预训练模型，已经对数以百万计的YouTube视频进行了音频事件预测训练。该网络以MobileNet架构为基础，非常适合嵌入式应用程序，可以为应用程序开发者提供很好的基准。下表显示了一个简单的YAMNet分类器（小于200KB）的仿真结果。可以看出，这种小型分类器能够在无噪声的条件下和有噪声的情况下以足够的精确度检测一些常见的音频事件。如表1所示，模型的TPR（真正类率）性能随着信号的信噪比而增加。该表所列的数据仅是概括性地说明这一概念。实际上，应用程序开发人员需要花费大量的时间来训练和优化这些模型，以便在测试条件下准确地检测声音。

使用YAMNet源分类器的TPR

IA8201是运行源分类算法的最佳选择

在智能家居系统中，图1所示的计算模块是音频处理链的关键组件。ML算法通常用于执行这些任务，而矩阵运算对于ML算法的执行却至关重要。根据应用程序的类型，可能需要执行上亿次乘加运算。因此，ML处理器必须有一个快速、高效的矩阵乘法器作为主计算引擎。

Knowles AISonic™ IA8201：Dual Core是一款音频边缘处理器，专门为高级音频和机器学习应用设计，可实现高效节能的边缘计算。IA8201除了支持高级语音处理和音频输出功能外，还能在智能家居应用中以非常低的功耗运行音频事件（AE）识别用例。其中一个内核具有执行矩阵矢量乘法器（MVM）处理的最优定制指令集，这是运行分类例程的关键。该处理器的其他功能包括：1MB RAM、64位/128位总线（用于高吞吐量数据传输）、ML硬件加速器以及稀疏矩阵支持（可在精度和内存之间实现适当平衡。IA8201 SDK还提供了支持TensorFlow lite的加速库，使设计人员能够使用标准框架和工具来缩短设计周期。

结论

随着专为高级音频和机器学习应用程序而设计的音频边缘处理器解决音频源分类的难题，我们所熟知的智能设备将变得智能与实用兼备。楼氏电子边缘处理器将使智能家居设备和电器更加安全、更加个性化。