[发明专利]端到端流关键词检出在审
申请号: | 201980044566.5 | 申请日: | 2019-06-13 |
公开(公告)号: | CN112368769A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 拉吉尔·阿尔瓦雷茨·格瓦拉;朴玄振 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/22;G06N3/04 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 周亚荣;邓聪惠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 端到端流 关键词 检出 | ||
1.一种方法,包括:
在用户设备(102)的数据处理硬件(103)处接收输入帧(210)的序列,每个输入帧包括表征由所述用户设备(102)捕获的流音频(118)的相应的音频特征(410);
通过所述数据处理硬件(103),使用记忆神经网络(300)来生成指示在所述流音频(118)中存在热词的概率分数(350),所述记忆神经网络(300)包括顺序堆叠单值分解过滤器SVDF层(302),其中,每个SVDF层(302)包括至少一个神经元(312),并且每个神经元(312)包括:
相应的存储器组件(330),所述相应的存储器组件(330)与对应神经元(312)的相应的存储器容量相关联;
第一级(320),所述第一级(320)被配置成单独地对每个输入帧(210)的所述相应的音频特征(410)执行过滤并且将所过滤后的音频特征(410)输出到所述相应的存储器组件(330);以及
第二级(340),所述第二级(340)被配置成对驻留在所述相应的存储器组件(330)中的所有所过滤后的音频特征(410)执行过滤;
通过所述数据处理硬件(103)确定所述概率分数(350)是否满足热词检测阈值;以及
当所述概率分数(350)满足所述热词检测阈值时,通过所述数据处理硬件(103)在所述用户设备(102)上发起唤醒过程以用于处理所述热词和/或所述音频流(118)中紧跟所述热词之后的一个或多个其他词语。
2.根据权利要求1所述的方法(600),其中,与用于来自所述SVDF层(302)中的每一个的神经元(312)的所述相应的存储器组件(330)相关联的所述存储器容量的和为所述记忆神经网络(300)提供与一般讲话者讲出所述热词花费的时间长度成比例的固定存储器容量。
3.根据权利要求1或者2所述的方法(600),其中,与所述相应的存储器组件(330)中的至少一个相关联的相应的存储器容量不同于与剩余存储器组件(330)相关联的相应的存储器容量。
4.根据权利要求1-3中的任一项所述的方法(600),其中,与所有SVDF层(302)的相应的存储器组件(330)相关联的相应的存储器容量是相同的。
5.根据权利要求1-4中的任一项所述的方法(600),其中,远程系统(110)在多个训练输入音频序列(400)上训练所述记忆神经网络(300),每个训练输入音频序列(400)包括:
输入帧(210)的序列,每个输入帧包括表征所述热词的语音成分(430)的一个或多个相应的音频特征(410);和
指派给所述输入帧(210)的标签(420),每个标签(420)指示相应的输入帧(210)的音频特征(410)包括所述热词的语音成分(430)的概率。
6.根据权利要求5所述的方法(600),其中,对于每个训练输入音频序列(400),训练所述记忆神经网络(300)包括:
通过将第一标签(420)指派给包括所述热词的语音成分(430)的所述输入帧(210)的一部分并且将第二标签(420)指派给包括所述热词的语音成分(430)的所述输入帧(210)的剩余部分来训练编码器部分(310);以及
通过应用指示对应的训练输入音频序列(400)包括所述热词或不包括所述热词的标签(420)来训练解码器部分(311)。
7.根据权利要求6所述的方法(600),其中,将所述第一标签(420)指派给所述输入帧(210)的部分包括:
将所述第一标签(420)指派给包括表征所述热词的最后语音成分(430)的一个或多个相应的音频特征(410)的至少一个输入帧(210);以及
将所述第二标签(420)指派给各自包括表征所述热词的剩余语音成分(430)的一个或多个相应的音频特征(410)的所述剩余输入帧(210)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980044566.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于功率状态确定资源控制状态
- 下一篇:基于CCLM的帧内预测方法和装置