拟合人类听美女写真福利单身狗视频觉系统,地平线语音交互系统如何实现双麦听音 | 大牛讲堂


原标题:拟合人类听觉系统,地平线语音交互系统如何实现“双麦听音” | 大牛讲堂

据说,一名好的战士,可以轻轻松松辨别噪音、声音来源。人类有如此天赋,那么生在 AI 时代的智能设备,要经过怎样的“努力”,才能拥有这样的能力呢?这一次,地平线「大牛讲堂」带来了多模交互之语音篇——地平线语音交互系统如何实现“双麦听音”?

从「鸡尾酒会效应」说起

在嘈杂的环境中比如鸡尾酒会,人们非常善于把注意力集中在某个特定的人身上,在心理上"屏蔽"其他所有声音,这种人类与生俱来的能力被称为「鸡尾酒会效应」。自 1953 年 Colin Cherry 提出该效应以来,计算机科学家,语音学家,认知学家,心理学家等大量学科的科学家试图去解决这个问题。

随着人工智能和深度学习的发展,关于自动语音分离(将音频信号分离为单独的语音源)的研究已经非常深入,但相比于现有的智能语音交互系统,人耳在复杂环境中的表现依然有着压倒性的优势。结合人耳的听觉认知特性美女写真福利单身狗视频,依靠语音信号处理和语音识别技术美女写真福利单身狗视频,如何有效降低信噪比美女写真福利单身狗视频,分离对语音识别系统有用的人声信号和各种环境中的非特定噪声信号,一直是声学领域的热点问题。

噪声与人声的分离,不同人声的分离,不同距离的噪声人声分离等等,是目前解决鸡尾酒会效应问题的一大发展瓶颈。

麦克风阵列:押“双”还是押“多”

鸡尾酒会现象是「图形-背景现象」的听觉版本——这里的“图形”是我们所注意或引起我们注意的声音,“背景”是其他的声音。 鸡尾酒会效应可以反应注意力有早选与晚选的可能性,那么,如何借助信号处理和人工智能的手段更加有效地逼近人耳的鸡尾酒会效应呢?科技公司们主要在多麦克风和双麦克风方案分别进行了探索。

多麦克风阵列常用的定位和波束方案是期望通过更多的麦克风获得更好的空间选择特性,进而达到增强特定方位语音的目的,但这类方案在原理上并不能很好地拟合人耳的注意力机制,因此需要足够数量的麦克风才能获得较为令人满意的效果。比如目前全球销量最大的智能音箱 Amazon Echo 使用了七个麦克风,带屏幕版本的 Echo Show 则进一步升级到八个麦克风。

相比于多麦克风阵列的语音前端,双麦克风前端处理方案显而易见的好处是极大简化了语音交互产品的硬件设计方案;而从技术角度来看,双麦克风也是拟合人类听觉特性的最直观方案。

“语音增强”和“语音识别”联合优化

性能优异的语音处理前端可以融合统计信号处理和机器学习的前沿技术,适用于任意结构的多麦克风系统,且在双麦克风条件下能最大限度地逼近人耳的听觉注意力机制,但仅止于此,还不足以完美地拟合“鸡尾酒会效应”,生理声学和心理声学的研究结果早以表明人在复杂环境中对语言的处理是并不是借助“语音增强”和“语音识别”两个孤立的处理过程,而是通过两者的有机融合,最大限度地提取有效的语音信息。

地平线与国内声学领域最重要的研究机构之一南京大学声学研究所联合设立了智能音频实验室,并设计了性能优异的语音处理前端——Enhanced Speech Extraction (ESE)系统。

换句话说,“语音增强”和“语音识别”是两个你中有我、我中有你的处理过程。有鉴于此,地平线充分融合基于自身 ESE方案的前端增强处理和自研高性能关键词识别方案,创造性地设计了基于海量数据的融合优化策略,最大程度地逼近 「鸡尾酒会效应」。好处也显而易见,整体优化的系统不仅在复杂环境中有更出色的识别效果,还能根据客户的需求做定制化的适配。

地平线成熟的双麦克风阵列算法,能够有效地解决远场低信噪比下拾音问题

在实际落地中,通过与 Amazon 最主要的 Alexa 解决方案供应商——Linkplay 深入合作,地平线的 ESE 系统已经部署在包括 Yamaha、Naver(韩国最大的互联网公司)和 Yandex(俄罗斯最大的互联网公司)等重量级国际客户的智能语音交互产品中。Amazon 发布的 Alexa 远场测试(Alexa Far-field Test)是国际公认的检验语音前端处理性能的测试标准,地平线基于 ESE 的双麦克风前端处理方案是国内率先通过 Alexa 远场测试的双麦克风方案,并且在评测中的综合性能与 Amazon Echo Dot 自研的七麦克风方案性能相当。

值得一提的是,Naver 也制定了极其严苛的测试标准,地平线的 ESE 方案在竞标测评中脱颖而出,这也给了韩国客户极大的信心,进一步加深了与地平线的合作。

高性价比语音方案赋能更自然交互

地平线的重要客户之一 —— 小米公司,在小爱触屏音箱项目中采用的便是地平线提供的双麦克风方案,事实证明,该音箱仅用双麦克风便可在强噪声干扰条件下有效抽取语音信号。与小米公司的合作过程中,地平线根据小米语音交互产品专用唤醒词“小爱同学”的特点,对 ESE 和 RKS 方案都进行了有针对性的算法调整,并进一步结合小米产品的实际应用场景定制了专门的融合优化策略。在小米声学实验室的严格测评中,地平线的整体方案取得最佳成绩,已部署到小米公司一系列智能语音交互产品中。可以预见的是,双麦克风阵列降噪正逐渐成为市场主流。

除小爱触屏音响外,地平线语音方案还赋能了另外两款小米音响——小米小爱音箱PLAY、小米小爱音箱万能遥控版

与双麦克风阵列方案同理,凭借领先性的算法优势,地平线的多麦克风阵列也可以以较低成本实现更高的性能。在与理想 ONE 的合作案例中,地平线用四麦克分布式阵列即可实现 6 音区的声源识别。此外,根据理想ONE 期望的语音交互逻辑,地平线基于 ESE 方案,专门设计了一版适用于车载分布式麦克风阵列的同步增强和定位(Simultaneous Enhancement and Localization, SEL)系统。SEL 系统不仅能在车载复杂环境中有效抑制干扰并增强期望语音,还能准确判别车内多个说话人的空间位置,这为理想给客户提供更为人性化的语音交互体验创造了良好的先决条件。

地平线助力理想 ONE “听声辨位”

此外,地平线同样对车和家的专用唤醒词“理想同学”定制了融合优化策略,并在多轮联调过程中根据车和家的需求不断调整整体方案,确保交付给车和家业界性能最优的车载语音前端产品。本着成就客户的一贯宗旨,地平线不仅为车和家设计顶尖的语音产品,还在合作过程中,利用自身强大的声学积累,积极配合车和家与车载音响音效公司沟通,理顺了音频技术链。

过去四十年,人与机器的交互方式在不断进化,几乎每十年就会有一次重大革新,比如以鼠标/键盘为主的交互模式转换为以触摸为主的交互模式。在可预见的未来里,视觉和语音等交互方式都将有各自更为擅长的应用场景,基于人工智能技术的多模交互将成为人机交互发展的未来。逼近完全智能交互的终极目标还有很长的路要走,但无论是智能驾驶还是物联网领域,更为自然、人性化的交互都可以在现阶段赋能一系列应用场景。随着多模人机交互的演进,未来某天我们也许真的能够创造出行为与人类别无二致的智能机器。

关于地平线「大牛讲堂」

「大牛讲堂」秉承着“为技术干货而生”的理念,旨在通过分享人工智能与 AI 芯片领域的前沿观点、技术干货、开发者经验,打造一个开放的技术社区。正如地平线拥抱开放心态、坚持芯片赋能一样,「大牛讲堂」也希望以同样的开放心态分享知识,与AI路上的同行者一起进步。

阔别两年,终于回归的大牛讲堂会给我们带来怎样的惊喜呢?敬请期待。(大牛讲堂历史干货点击【阅读原文】或复制以下链接到浏览器打开