[发明专利]使用关键语句适应性地识别语音在审
申请号: | 202010980904.0 | 申请日: | 2020-09-17 |
公开(公告)号: | CN112927678A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 克尔兹托夫·查诺夫斯基;穆尼尔·尼古拉·亚历山大·乔治;托比亚斯·博克雷;乔治·施特默尔 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/26;G10L15/16;G10L15/187 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 李丽 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 关键 语句 适应性 识别 语音 | ||
1.一种装置,包括:
音频接收器,所述音频接收器用于接收音频流;
关键语句检测器,所述关键语句检测器用于检测所述音频流中的关键语句;
模型适配器,所述模型适配器用于基于所述关键语句来动态地适配模型;以及
查询识别器,所述查询识别器用于通过所述模型来检测所述音频流中跟随在所述关键语句之后的声音查询。
2.根据权利要求1所述的装置,其中,所述关键语句检测器包括数字信号处理器。
3.根据权利要求1所述的装置,其中,所述关键语句检测器和所述模型适配器包括神经网络。
4.根据权利要求1-3中任一项所述的装置,其中,所述关键语句检测器包括超低功率声音唤醒单元,所述专用超低功率声音唤醒单元用于基于所述音频流中的语音特征来检测所述关键语句。
5.根据权利要求1-4中任一项所述的装置,其中,所述关键语句包括唤醒语句。
6.根据权利要求4或5所述的装置,还包括特征前端,所述特征前端用于基于所述音频流来计算所述语音特征。
7.根据权利要求1-6中任一项所述的装置,其中,所述模型包括声学模型,所述声学模型用于生成多元音素上的概率分布。
8.根据权利要求1-7中任一项所述的装置,其中,所述模型包括语言模型,所述语言模型用于计算最终字母序列。
9.根据权利要求1-8中任一项所述的装置,其中,所述模型包括递归神经元网络。
10.根据权利要求1-9中任一项所述的装置,其中,所述模型包括时间延迟神经元网络。
11.根据权利要求1-10中任一项所述的装置,其中,所述模型适配器将各个时间步长处的误差后向传播回到初始状态。
12.根据权利要求1-11中任一项所述的装置,其中,所述模型适配器在后向传递中对所述模型的多个权重进行调整。
13.根据权利要求1-12中任一项所述的装置,其中,所述模型适配器通过将所述关键语句的经识别的多元音素概率分布与参考分布进行比较来计算误差。
14.一种方法,包括:
经由处理器接收音频流;
经由所述处理器检测所述音频流中的关键语句;
经由所述处理器基于所述关键语句来动态地适配模型;以及
经由所述处理器通过所述模型来检测音频流中跟随在所述关键语句之后的声音查询。
15.根据权利要求14所述的方法,其中,适配所述模型包括:将各个时间步长处的误差后向传播回到初始状态。
16.根据权利要求14或15所述的方法,其中,适配所述模型包括:在后向传递中对所述模型的多个权重进行调整。
17.根据权利要求14到16中任一项所述的方法,其中,适配所述模型包括:通过将所述关键语句的经识别的多元音素概率分布与参考分布进行比较来计算误差。
18.根据权利要求14到17中任一项所述的方法,其中,适配所述模型包括:在后向传递中对所述模型的初始状态进行调整。
19.根据权利要求14到18中任一项所述的方法,其中,检测所述关键语句包括:在所述模型上执行前向传递。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010980904.0/1.html,转载请声明来源钻瓜专利网。