[发明专利]端到端流关键词检出在审
申请号: | 201980044566.5 | 申请日: | 2019-06-13 |
公开(公告)号: | CN112368769A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 拉吉尔·阿尔瓦雷茨·格瓦拉;朴玄振 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/22;G06N3/04 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 端到端流 关键词 检出 | ||
一种用于检测热词的方法(600)包括:接收表征由用户设备(102)捕获的流音频(118)的输入帧(210)的序列,和使用记忆神经网络(300)生成指示在流音频中存在热词的概率分数(350)。该网络包括顺序堆叠的单值分解过滤器(SVDF)层(302),并且每个SVDF层包括至少一个神经元(312)。每个神经元包括相应的存储器组件(330);第一级(320),其被配置成单独地对每个输入帧的音频特征(410)执行过滤并输出到存储器组件;以及第二级(340),其被配置成对驻留在相应的存储器组件中的所有所过滤的音频特征执行过滤。该方法还包括确定概率分数是否满足热词检测阈值,以及在用户设备上发起唤醒过程以处理附加的词语。
技术领域
本公开涉及用于检出流音频中的关键词的端对端系统。
背景技术
支持语音的环境(例如,家、工作场所、学校、汽车等)允许用户向基于计算机的系统大声讲出查询或命令,该基于计算机的系统处理和回答该查询和/或基于该命令来执行功能。能够使用通过环境的各个空间或区域分布的连接的麦克风设备的网络来实现支持语音的环境。与针对存在于环境中的另一个人的话语相反,这些设备可以使用热词来帮助辨别何时将给定话语指向系统。因此,设备可以在睡眠状态或休眠状态下操作并且只有当检测到的话语包括热词时才唤醒。神经网络最近已作为用于训练模型以检测流音频中由用户讲出的热词的有吸引力的解决方案出现。通常,用于在流音频中检测热词的系统包括信号处理前端组件、神经网络声学编码器组件和人工设计的解码器组件。这些组件通常被彼此独立地训练,从而产生附加复杂性并且与联合地训练所有组件相比为次优的。
发明内容
本公开的一个方面提供一种用于在流音频中检测热词的方法。该方法包括:在用户设备的数据处理硬件处接收输入帧的序列,每个输入帧包括表征由用户设备捕获的流音频的相应的音频特征;以及通过数据处理硬件,使用记忆神经网络来生成指示在流音频中存在热词的概率分数。记忆神经网络包括顺序堆叠单值分解过滤器(SVDF)层,其中,每个SVDF层包括至少一个神经元。每个神经元包括相应的存储器组件、第一级和第二级。相应的存储器组件与对应神经元的相应的存储器容量相关联。第一级被配置成单独地对每个输入帧的相应的音频特征执行过滤并且将过滤后的音频特征输出到相应的存储器组件。第二级被配置成对驻留在相应的存储器组件中的所有过滤后的音频特征执行过滤。该方法也包括:通过数据处理硬件确定概率分数是否满足热词检测阈值;以及当概率分数满足热词检测阈值时,通过数据处理硬件在用户设备上发起唤醒过程以用于处理热词和/或音频流中紧跟该热词之后的一个或多个其他词语。
本公开的实施方式可以包括以下任选特征中的一个或多个。在一些实施方式中,与用于来自SVDF层中的每一个的神经元的相应的存储器组件相关联的存储器容量的和为记忆神经网络提供与一般讲话者讲出热词花费的时间长度成比例的固定存储器容量。在一些示例中,与相应的存储器组件中的至少一个相关联的相应的存储器容量不同于与剩余存储器组件相关联的相应的存储器容量。在其他示例中,与所有SVDF层的相应的存储器组件相关联的相应的存储器容量是相同的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980044566.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于功率状态确定资源控制状态
- 下一篇:基于CCLM的帧内预测方法和装置