在虚拟会议中,通过静音键可以很容易阻止人们互相交谈。但在熙熙攘攘的咖啡馆里,没有按钮可以让你旁边的桌子安静下来。
定位和控制声音的能力——例如,在拥挤的房间里,将一个人的说话与特定位置隔离开来——对研究人员来说是一个挑战,尤其是在没有摄像头视觉线索的情况下。
由华盛顿大学的研究人员领导的一个团队开发了一种可变形的智能扬声器,它使用自动部署的麦克风将房间划分为语音区域,并跟踪单个扬声器的位置。在该团队的深度学习算法的帮助下,即使两个相邻的人的声音相似,该系统也可以让用户将某些区域或单独的同时对话静音。每个直径约一英寸,麦克风自动从充电站部署,然后返回到充电站。这允许系统在环境之间移动并自动设置。例如,在会议室会议中,可以部署这样一个系统,而不是中央麦克风,以便更好地控制室内音频。
该团队于9月21日在《自然通讯》(Nature Communications)上发表了他们的研究结果。
“如果我闭上眼睛,房间里有10个人在说话,我不知道谁在说什么,也不知道他们在房间里的确切位置。这对人类大脑来说是很难处理的。到目前为止,这对技术来说也很困难,”共同主要作者Malek Itani说,“这是第一次,使用我们称之为‘声学群’(acoustic swarm)的机器人,我们能够跟踪一个房间里说话的多人的位置,并将他们的讲话分开。”
以前对机器群的研究需要使用头顶或设备上的摄像头、投影仪或特殊表面。华盛顿大学团队的系统是第一个仅使用声音精确分配机器群的系统。
该团队的原型由七个小型机器人组成,它们分布在不同大小的桌子上。当它们从充电器中移动时,每个机器人都会发出高频声音,就像蝙蝠导航一样,利用这个频率和其他传感器来避开障碍物,四处移动而不会从桌子上掉下来。自动部署使机器人能够以最大的精度放置自己,比人工设置它们更能精准控制声音。这些机器人分散在尽可能远的地方,因为距离越远,区分和定位说话的人就越容易。现在的消费级智能扬声器有多个麦克风,但聚集在同一个设备上,相距太近了,无法允许这个系统的静音和活动区域。
“如果我有一个麦克风离我一英尺远,另一个麦克风离我两英尺远,我的声音会先传到一英尺远的麦克风。如果其他人离麦克风更近,他们的声音会先传到那里。”研究人员表示,“我们开发了神经网络,利用这些延时信号来区分每个人在说什么,并跟踪他们在空间中的位置。因此,你可以让四个人进行两次对话,并分离出四种声音中的任何一种,并在房间中定位每种声音。”
该团队在办公室、客厅和厨房测试了机器人,每组三到五人说话。在所有这些环境中,该系统可以在90%的情况下识别彼此相距1.6英尺(50厘米)以内的不同声音,而无需事先了解说话者的数量。该系统平均能够在1.82秒内处理3秒的音频。
研究人员表示,随着技术的进步,声群可能会被部署在智能家居中,以更好地区分与智能扬声器交谈的人。例如,这可能只允许坐在沙发上的人,在一个“活动区”,对电视进行语音控制。
研究人员计划最终制造出可以在房间里移动的麦克风机器人,而不是局限在桌子上。该团队还在研究扬声器是否能发出声音,允许真实世界内实现静音和活动区域,让房间不同位置的人就能听到不同的声音。
当然,这项技术也会让人联想到隐私问题。研究人员承认麦克风可能会被误用,所以他们设置了防范措施:麦克风是用声音导航的,而不是像其他类似系统那样用车载摄像头导航。而且这些机器人很容易被看到,当它们活动时,它们的提示灯会闪烁。声学群不像大多数智能扬声器那样在云端处理音频,而是在本地处理所有音频,作为隐私限制。尽管有些人最初的想法可能是关于监视,但该系统可以用于相反的情况,该团队说。
“它有可能真正有益于隐私,超出了目前的智能扬声器所允许的范围,”Itani说。“我可以说,'不要在我的办公桌周围记录任何东西',我们的系统会在我周围3英尺处产生一个区域。这个区域中的任何内容都不会被记录下来。或者,如果两组在旁边说话,一组正在进行私人对话,而另一组正在录音,则一个对话可以处于静音区,并且它将保持私密。”