亚马逊最近给它的Echo音箱带来了功能升级,最多已经能识别10个人的声音。这个新特性得以实现的背后技术,叫作声纹识别。
跟指纹、虹膜等生物识别手段类似,声纹是从一个人的语音片段中提取出独特且有规律的特征数据,将来再听到这个人说话时能快速识别出来。声纹识别最常见的应用是个人隐私防护,比如微信就内置了“声音锁”功能,用来保护用户账户不被窃取。而在智能音箱这种多人使用的家庭产品上,声纹识别的用途更多。
如果一款智能音箱能分辨出家庭成员所下达的语音指令,就能提供更有针对性的回应和服务。最直接的潜在使用场景是推荐音乐。亚马逊Alexa支持声纹识别之后,Echo音箱应该很快就能基于“用户是谁”推荐符合其偏好的歌曲。
这样一来,也避免了多个人共用一个收藏夹,或者手动建多个收藏夹的麻烦。除了推荐音乐,基于声纹识别的个人日程管理、在线购物/支付等功能也可以进一步提升使用体验。而在国内,最早号称做出了声纹识别功能的是阿里的天猫精灵。通过语音购物或者充话费时,天猫精灵会对说话者进行身份验证。验证方式是让使用者说出“天猫精灵”+四个随机数字。这种方案在技术实现上比较简单。因为在同一语种下,0-9十个数字的声学特征很容易找到规律。
再加上固定的唤醒词,天猫精灵的声纹识别理论上可以做到比较理想的识别准确率。然而,这种方案也严重影响了使用体验。最高明的声纹识别,是不需要专门设置环节来验证身份的。国内的其它智能音箱产品,比如叮咚音箱、若琪Rokid、问问音箱等也都在攻克声纹识别的技术难关。但从整体来看,想让智能音箱被更多人接受,缺少的可能不只是声纹识别这一个功能特性。
|