[发明专利]使用神经网络模型进行选择性唤醒词检测的系统和方法在审
申请号: | 201980003798.6 | 申请日: | 2019-09-25 |
公开(公告)号: | CN111247582A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 约阿希姆·范伯格;丹妮亚·贾科贝洛;克劳斯·哈顿 | 申请(专利权)人: | 搜诺思公司 |
主分类号: | G10L15/30 | 分类号: | G10L15/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 陈慧 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 神经网络 模型 进行 选择性 唤醒 检测 系统 方法 | ||
1.一种方法,包括:
通过网络麦克风设备捕获声音数据;
通过所述网络麦克风设备,使用关键词发现算法(576)来识别所述声音数据中的候选唤醒词;
基于对所述声音数据中候选唤醒词的识别,从多个唤醒词引擎(570a、570b、571)中选择第一唤醒词引擎(570a、570b、571);
利用所述第一唤醒词引擎(570a、570b、571),分析所述声音数据以确认检测到唤醒词;以及
当所述第一唤醒词引擎(570a、570b、571)确认检测到所述唤醒词时,向一个或多个与语音助手服务相关联的远程计算设备发送所述声音数据的语音发声。
2.根据权利要求1所述的方法,其中,识别所述候选唤醒词包括:确定所述候选唤醒词在所述声音数据中存在的概率。
3.根据权利要求2所述的方法,其中,所述唤醒词引擎(570a、570b、571)被配置为确定所述候选唤醒词在所述声音数据中是否以比所述关键词发现算法(576)更高的精度存在。
4.根据前述权利要求中任一项所述的方法,其中,所述关键词发现算法(576)被配置为识别与多个相应语音助手服务和相应唤醒词引擎相对应的多个唤醒词。
5.根据前述权利要求中任一项所述的方法,其中,相对于所述多个唤醒词引擎(570a、570b、571),所述关键词发现算法(576)至少为以下中的一项:
在计算上不太复杂;以及
消耗更少的存储空间。
6.根据前述权利要求中任一项所述的方法,其中,所述第一唤醒词引擎(570a、570b、571)与所述候选唤醒词相关联,并且其中,所述多个唤醒词引擎(570a、570b、571)中的另一个与一个或多个附加唤醒词相关联。
7.根据前述权利要求中任一项所述的方法,其中,识别所述候选唤醒词包括:将神经网络模型(802)应用于所述声音数据。
8.根据权利要求7所述的方法,其中,所述神经网络模型(802)包括压缩神经网络模型(804)。
9.根据权利要求7或8所述的方法,其中,所述神经网络模型(802、804)被本地存储在NMD上。
10.根据权利要求8或9所述的方法,其中,所述压缩神经网络模型(804)是通过将高斯混合模型拟合到所述神经网络(802)的权重来压缩的。
11.根据权利要求10所述的方法,还包括:通过在所述神经网络(802)的权重范围内分配非固定分量的均值来初始化所述高斯混合模型。
12.根据权利要求11所述的方法,还包括:在所述神经网络模型的权重上拟合所述初始化的高斯混合模型,并且将神经网络的权重聚合在所述高斯混合模型集群周围。
13.根据权利要求12所述的方法,还包括量化所述神经网络模型。
14.根据权利要求8至13中的一项所述的方法,还包括:使用所述神经网络模型的压缩稀疏行表示来压缩所述神经网络模型。
15.根据前述权利要求中任一项所述的方法,其中,选择所述第一唤醒词引擎(570a、570b、571)包括:将所述NMD从低功率或无功率状态加电到高功率状态。
16.根据前述权利要求中任一项所述的方法,还包括:在发送附加声音数据之后,通过所述网络麦克风设备接收与所述附加声音数据有关的媒体内容的选择。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于搜诺思公司,未经搜诺思公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980003798.6/1.html,转载请声明来源钻瓜专利网。