显示器搭载会是智能音箱发展的下一个风口吗？

显示器搭载会是智能音箱发展的下一个风口吗？

2018-02-08

　　自亚马逊于2014年11月首次发表Echo至今，随着时间推进智能音箱样貌也正逐渐改变，自传统Echo仅有语音对话功能演变成搭载显示荧幕与适用于多人场景的多元功能形式，以满足更多使用情境并优化消费者体验。
　　智能音箱逐渐朝向多样化样貌及搭载显示器荧幕等差异化发展
　　回顾智能音箱发展，自亚马逊于2014年11月首次发表Echo至今，智能音箱市场除了吸引众多厂商如Google、Apple、LINE、京东商城、阿里巴巴、小米等厂商投入外，它的样貌与功能也正随着时间变迁而不断地演进。
　　整体而言，智能音箱后进者的市场布局仍紧紧跟着亚马逊脚步。观察亚马逊在此市场的布局轨迹，可发现亚马逊在2014年11月推出售价为179.99美元的Echo后，于2016年3月又推出小巧且价格大幅降至89.99美元的Echo Dot，以及能使用充电电池方便携带的Tap，并于之后推出多种颜色与材质变化的Echo Dot 2和Echo 2，以符合消费者的个人化偏好。
　　自2017年开始，亚马逊也开始推出结合摄影镜头或显示荧幕等具备多重功能的智能音箱，例如结合摄影镜头Echo Look，能在一般家庭中进行影像监控，又如结合显示荧幕的智能音箱Echo Show和Echo Spot，除了语音控制功能外，还具备荧幕显示和视讯通话等功能。
　　观察后续各厂商切入智能音箱布局的发展方向，一开始都以推出类似Echo规格的智能音箱为起点，再推出类似Echo Dot这样小巧、方便携带、越趋颜色样式多变的产品，而现在又朝向Echo Show这样搭载显示荧幕的智能音箱迈进，也因此成为CES 2018展会上智能音箱产品吸睛之处。
　　适用于多人场景的智能音箱，是厂商们的下一步目标
　　即使目前的语音辨识技术，已基本达到许多智能音箱的使用情境需求，想要完全实现以语音方式控制家中设备，其实仍存在部分瑕疵，象是如何在人声吵杂的环境下正确辨识出用户发出的语音指定并正确执行，就是一件不容易的事。
　　为了满足这项使用情境缺陷，发展家庭语音控制系统厂商开始导入声纹辨识进行补充，希望借助声纹辨识提升吵杂环境下的语音指令辨识率，以提升用户体验。
　　可看到目前已经在市面上推出的智能音箱，为能做到更好的定位、声音捕捉、降低无关噪音的影响，开发者都采用多麦克风的硬件架构。即使如此，一旦将这个已经搭载多个麦克风的智能音箱置于人声鼎沸环境中，它的语音辨识系统仍然很有可能无法运作，原因在于它很难从众多人声中正确辨识出哪个声音是来自下指令的用户。
　　当导入声纹辨识技术后，这样的问题将可迎刃而解。当一位家庭成员呼叫智能音箱打开房间的灯，语音控制系统就能透过声纹辨识，确认说话者的身份，从而准确地打开说话者房间的灯。
　　就体验上来说，不管是从众多人声中准确辨认下指令的用户，或是确认说话者身份，目前看来声纹辨识的导入将是势在必行，是智能音箱厂商的下一步努力方向。
　　声纹辨识技术的导入，不仅可改善智慧家庭使用情境，也适用于多人会议情境，让语音助理的应用范围更加广泛。
　　厂商部分，目前包含亚马逊和Google都已宣称声纹辨识技术是他们语音助理市场布局的下一步，其中亚马逊于2017年10月已宣称其声纹辨识技术能让Echo语音辨识技术升级，最多能辨识出10个使用者声音。