9月28日,80足球直播吧张文明教授团队在Science Advances发表“A wave-confining metasphere beamforming acoustic sensor for superior human-machine voice interaction”论文,提出了声学超球面的新概念,基于超球面缺陷腔阵列局域共振和波束形成原理,率先设计出一种声学超球面声音传感器,展示了全向拾音、声压放大、声源追踪、高性能音频克隆和语音识别等多项功能,即使在强背景噪声环境中也能定位和识别相邻角度的声源,实现了卓越的人机声交互性能。80足球直播吧博士生马珂婧和密西根学院博士生陈虎越为共同第一作者,张文明教授和密西根学院邵磊副教授为共同通讯作者。
声学超球面及声电耦合效果
对话是人际交流最常见和最轻松的方式,也是智能人机交互技术的重要发展方向。这一技术需要同时具有超高信噪比和灵敏度的声学传感器,并能够在嘈杂环境中精确识别、定位和追踪多个语音。目前,商用麦克风和新兴的超高灵敏度薄膜传感器都无法解决声波在空间内快速耗散的根本问题,各种智能音箱和会议室全向麦克风都时常难以有效拾音。而声学超材料拥有调制和操纵声波的无限可能性,已被证明能够用于声波的放大和分离。然而,如何利用声超材料同时实现人声频率范围内的超高信噪比和灵敏度参数、多个声源的被动放大、分离和定位,并实现实际应用场景中的使用,是语音传感和交互识别领域的重要挑战。
声学超球面的设计概念和物理机制
研究团队提出了一种“声学超球面”的概念,并构建了近似的正十二面体声学超材料及缺陷腔结构来验证其声振特性。此策略基于局域共振原理,将声波约束在每个正五边形中心的缺陷位置,被动的引导并放大声波,可以获得两倍于发射端的声场强度,在远距离感知场景下弥补声波在空间的快速、大幅耗散。同时利用缺陷腔内低噪的压电转换性能,实现了优异的信噪比(72 dB)和卓越的灵敏度(137 mVpp/Pa or -26.3 dBV)。因此,研究团队实现了优异的音频克隆、身份验证和语音识别等多种人机交互功能。
会议协助:空间多声源与不同角度
同时,基于缺陷腔阵列,结合波束形成算法和机器学习算法,研究团队还实现了多个声源的实时定位和追踪,并展示了线上会议协助和工厂巡逻搜救等多个应用场景下的强大功能。声学超球面系统不仅成功识别了空间内相邻角度同时发声的多位用户,还可以追踪被强烈背景噪音淹没的人声。即使是空间内多个相邻角度声音信号严重混杂的情况下,声学超球面也可以基于归一化能量图谱来分辨不同的声源信息和所在方位。
该研究利用物理智能构建了多功能空间全向声学超球面传感器,结合多种智能算法优化系统功能,实现了多场景的卓越人机语音交互系统,为发展新一代智能机器人听觉系统和人机语音交互技术提供了新思路。
工厂搜救:强背景噪音与移动人声追踪识别
研究工作得到了国家自然科学基金重点项目、青年基金项目和上海市“科技创新行动计划”港澳台科技合作项目的资助。