[发明专利]模块化深度学习模型有效

申请号：	201780014729.6	申请日：	2017-02-27
公开（公告）号：	CN108701453B	公开（公告）日：	2023-04-04
发明（设计）人：	Y·黄;刘朝军;K·库玛;K·P·卡尔高卡;龚一凡	申请（专利权）人：	微软技术许可有限责任公司
主分类号：	G10L15/065	分类号：	G10L15/065;G06N3/045;G10L15/16
代理公司：	北京市金杜律师事务所 11256	代理人：	王茂华
地址：	美国华***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	模块化深度学习模型
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于声学信息的机器理解的自动语音识别(ASR)系统，所述系统包括：

一个或多个处理器，所述一个或多个处理器接收声学信息，所述声学信息包括由与用户相关联的计算设备接收的来自所述用户的语音；

存储声学模型的计算机存储介质，所述声学模型被配置为标识声学信息内的声学单元，

其中所述声学模型(AM)包括模块化深度学习模型，所述模块化深度学习模型包括多个隐藏层，所述多个隐藏层包括多个模块化层，所述多个模块化层包括多个特定于上下文的子模块，其中每个模块化层与不同的上下文相关联，其中个体模块化层中的与活动上下文相关联的仅第一特定于上下文的子模块在ASR期间在第一上下文中处理所述声学信息，其中所述模块化深度学习模型还包括个体模块化层之间的一个或多个公共层；

控制模块，所述控制模块包括存储计算机可用指令的一个或多个计算机存储介质，所述计算机可用指令当由一个或多个处理器执行时操作用于当执行ASR时使用一个或多个外部信号来确定所述声学信息的所述活动上下文；

模型配置组件，所述模型配置组件包括存储计算机可用指令的一个或多个计算机存储介质，所述计算机可用指令操作用于当由一个或多个处理器执行时通过基于由所述控制模块确定的所述活动上下文在ASR期间激活和去激活所述模块化深度学习模型中的不同的特定于上下文的子模块来配置所述声学模型；以及

一个或多个处理器通过使用所述模块化深度学习模型处理所述声学信息的声学特征来确定针对所述声学信息的识别语音，所述识别语音包括词、实体或短语中的一个或多个。

2.根据权利要求1所述的系统，其中所述控制模块激活所述第一特定于上下文的子模块。

3.根据权利要求1所述的系统，其中所述模块化深度学习模型包括门，所述门打开以允许来自先前层的输出被输入到所述第一特定于上下文的子模块。

4.根据权利要求1所述的系统，其中所述第一上下文是由蓝牙麦克风记录的声学信息，并且所述第一特定于上下文的子模块使用在蓝牙麦克风上捕获的声学数据来进行训练。

5.根据权利要求1所述的系统，其中所述第一上下文用于具有在第一范围内的sCluster值的所述声学信息，并且所述第一特定于上下文的子模块使用具有在所述第一范围内的sCluster值的声学数据来进行训练。

6.根据权利要求1所述的系统，其中所述第一上下文用于具有在第一范围内的iCluster值的所述声学信息，并且所述第一特定于上下文的子模块使用具有在所述第一范围内的iCluster值的声学数据来进行训练。

7.根据权利要求1所述的系统，其中所述多个特定于上下文的层中的每个特定于上下文的层被训练为不同的上下文类。

8.根据权利要求1所述的系统，其中配置所述声学模型包括激活所述个体模块化层中的所述第一特定于上下文的子模块。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司，未经微软技术许可有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201780014729.6/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]模块化深度学习模型有效

专利文献下载