[发明专利]音频装置、音频系统和音频处理方法在审
申请号: | 202110644269.3 | 申请日: | 2021-06-09 |
公开(公告)号: | CN113539286A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 周超 | 申请(专利权)人: | 深圳声临奇境人工智能有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0216 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 韩茂 |
地址: | 518000 广东省深圳市宝*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 装置 音频系统 处理 方法 | ||
提供了一种实施噪声(回声)消除技术的音频装置、音频系统和音频处理方法。该音频装置包括一个或多个主麦克风,其设置成更靠近目标声源,并设置成收集包含更多目标音频信号的第一音频信号。除了该一个或多个主麦克风外,还设有一个或多个辅助麦克风,其设置成远离目标声源,并设置成收集包含更少的目标音频信号的第二音频信号。微控制器,设置成处理第一音频信号和第二音频信号,以产生数据流。一个或多个编码方案,其实施成将音频信号编码成数据流,可选地将音频信号与输出至扬声器的待播放音频信号一起,编码成数据流。将至少一个多输入音频处理算法应用于数据流,以实现对音频信号的准确解释和/或理解,或改进人与人的语音通信。
交叉引用
本申请是2019年1月7日提交的标题为“Audio Device and Audio ProcessingMethod”的美国申请号为16/241,942的美国申请的部分延续申请(CIP),其全部内容通过引用并入本文。
技术领域
本公开涉及音频处理技术领域,并且更具体地,涉及实现噪声(回声)消除技术的音频装置、音频系统和音频处理方法。
背景技术
人机交互(HMI)指的是人类用户与具有一定人工智能属性的机器之间进行的通信和交互,在当今生产生活中起着日益重要的作用。便携式电子装置(例如手机、个人电脑、平板电脑)已经成为用于这种交互的非常流行的终端。
例如,HMI的一种相对常见的应用是由驾驶时需要在手机上进行操作或通话而激发的。但是,在大多数国家/地区,驾驶时用手在手机上操作通常被认为是不安全的,甚至是违反交通规则的行为。为了解决此问题,已引入多种方法来减少或消除驾驶员在手机上的手动操作。在这些方法中,一种可能性是实现语音控制功能,这样用户的语音可以被识别并转换为手机上的操作。
将人类语音转换为文本的ASR(自动语音识别)引擎被广泛应用于HMI。由于本领域用于人类语音识别的ASR引擎通过大量的人类语音材料训练而成,但这些用于训练的语音材料大多收集在没有太多噪声的环境下。因此,当待识别的音频信号既包含期望的用户语音又包含各种噪声时,这些ASR引擎的性能往往会受到影响。为了正确转换并理解用户的语音,在HMI中,减少收集到的音频信号中的噪声,然后再将其发送至ASR引擎以避免误解就变得很重要。
在许多其他场景下,例如机器辅助的人人交互(以远程音频会议VoIP为代表),上述噪声消除(NC)技术也被认为是必要的,以减少环境噪音的影响。例如,在有来自不同空间的多个与会者参与的电话会议中,来自任何一个空间的环境噪声将污染整个电话会议的质量,并因此影响所有与会者的体验。如何在保留与会者的的语音不受影响的同时减少部署于一个或多个空间的麦克风所获取的音频信号中的噪声是一大挑战。
此外,当用户在HMI或电话会议(VoIP)中除了使用麦克风以外,还使用外放扬声器时,另一个不利因素,其在本领域中通常称为“回声”,通常会影响语音辨识的质量和用户体验。更具体地说,“回声”由一个或多个扬声器向环境播放的音频(通常包含HMI中的机器发出的人工语音TTS信号或来自电话会议中远程与会者的语音)被部署于同一空间的一个或多个麦克风部分地重新获取而产生。回声与所需的人类语音混合,会在影响HMI中机器对人类语音的识别或理解,或在电话会议中影响远方的一个或多个与会者。在极端情况下,如果通话有两个参与者,同时使用上述带有一个或多个扬声器的音频装置并将他们自己的音频增益设置为一定水平,则可能会导致相当烦人的现象,即,“啸叫(howling)”。在这种场景下,有效的降低回声影响的技术,通常被称为声学回声消除(AEC),也是本领域的主要挑战。业内已存在针对该目的开发出许多算法。
本领域中的某些人可能将回声视为环境噪声的一部分,并且AEC技术可以相应地视为一种特殊的降噪(NC)技术。在下文的描述中,为了反映该概念并避免任何误解,术语“噪声”本身并不排除回声的概念;“NC”一词本身并将AEC的概念排除在外。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳声临奇境人工智能有限公司,未经深圳声临奇境人工智能有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110644269.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种对象跟踪识别方法、系统、设备及介质
- 下一篇:一种印刷机