
近日,大象声科共同创办人&CEO张学良博士发表了题为《从听清到听懂,AI智能语音信号处理的革命》的主题演讲,深入阐释了智能语音前端处理技术在AI眼镜新一代人机交互设备中的关键作用,并重点介绍了大象声科专为AI眼镜语音通话和语音交互场景推出的智能语音方案。
张学良博士指出,随着AI眼镜逐渐成为下一代人机交互的新入口,语音交互正成为继鼠标、触屏之后更自然、更便捷的交互方式。然而,当前语音交互仍面临“户外不敢说,嘈杂环境没法用”的痛点。作为语音交互链条的第一环,前端语音信号处理的质量,直接决定了后端语音识别的准确率、用户体验的流畅度以及设备的智能化水平。

作为全球首家将深度学习用于语音信号处理并落地端侧的AI公司,大象声科推出了专为AI眼镜通话场景和语音交互场景打造的智能语音解决方案,该方案基于端到端的深度神经网络模型,集合了大象声科全自研的包括AI降噪、人声分离、深度AEC、波束形成等AI语音信号处理算法,定向清晰拾音,精准语音唤醒,为AI眼镜打造更清晰的语音通信和更高效的语音交互体验。
佩戴者音区:只拾你音
AI眼镜智能语音方案的佩戴者音区功能,可确保AI眼镜在复杂环境中仅拾取佩戴者语音,不仅在通话中隔绝周围其他人说话声和环境噪音干扰,让通话对方听得更清,同时还能避免其他人误唤醒眼镜,提升语音识别的准确率。
高精度指向拾音:“指哪听哪”
拾音角度支持定制,可做到±5度范围内精准拾音,结合人声分离,可单独输出近场佩戴者自己和远场对话人两路独立语音信号,分别给到后端ASR进行识别,适用于翻译、会议等场景。
语音唤醒:强抗噪、低功耗
支持定制化唤醒词与免唤醒词指令,强噪音或者风噪环境下也能轻松唤醒;支持高通AR1 LPI模式(低功耗唤醒)以及采用二级唤醒模式,兼顾性能和功耗。
此外,该方案还支持沉浸式录音功能,可实现360°高清音频录制,抗风噪能力突出,骑行等户外运动场景下也能保障清晰录制。

目前,大象声科的语音前端处理技术已赋能超过1亿台智能终端,涵盖手机、耳机、PC、车载等多个领域。在AI眼镜这一新兴赛道中,大象声科正通过标品化、高性能的算法方案,助力客户快速实现产品化落地,推动行业走向更智能、更自然的多模态交互体验。(来源:大象声科ELEVOC)
|