[发明专利]语音识别系统、相关方法、装置及设备在审
申请号: | 202010701047.6 | 申请日: | 2020-07-15 |
公开(公告)号: | CN114023309A | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 高志付;张仕良 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/26;G10L15/30;G10L25/12;G10L25/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 钱秀茹 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 系统 相关 方法 装置 设备 | ||
1.一种语音识别系统,其特征在于,包括:
客户端,用于采集目标应用的语音数据,将所述语音数据发送至服务端;
服务端,用于从训练样本集中学习得到模型参数动态可变的语音识别模型;针对终端设备发送的所述语音数据,确定与所述目标应用对应的目标模型参数;通过基于所述目标模型参数的所述语音识别模型,将所述语音数据转换为文本序列。
2.一种语音识别方法,其特征在于,包括:
从训练样本集中学习得到模型参数动态可变的语音识别模型;
确定与目标应用对应的目标模型参数;
通过基于所述目标模型参数的所述语音识别模型,将目标应用的语音数据转换为文本序列。
3.根据权利要求2所述的方法,其特征在于,
所述模型参数包括:模型大小;
所述模型大小包括:神经网络的层数和/或神经元数量;
所述从训练样本集中学习得到模型参数动态可变的语音识别模型,包括:
根据动态确定的模型大小,对所述模型执行迭代训练。
4.根据权利要求3所述的方法,其特征在于,
所述动态确定的模型大小,采用如下方式确定:
从多个预设模型大小中,任意选取模型大小。
5.根据权利要求3所述的方法,其特征在于,
所述模型包括:流式端到端语音识别模型;
所述模型包括:音频编码器,解码器;
所述模型大小包括:音频编码器的大小。
6.根据权利要求2或3所述的方法,其特征在于,
所述模型参数包括:时延值;
所述从训练样本集中学习得到模型参数动态可变的语音识别模型,包括:
根据动态确定的时延值,对所述模型执行迭代训练。
7.根据权利要求6所述的方法,其特征在于,
所述动态确定的时延值,采用如下方式确定:
从多个预设时延值中,任意选取时延值;
所述目标应用的时延值包括:所述预设时延值以外的时延值。
8.根据权利要求6所述的方法,其特征在于,
所述模型包括:流式端到端语音识别模型;
所述模型包括:音频编码器,特征数据确定模块,解码器;
所述通过基于所述目标模型参数的所述语音识别模型,将所述语音数据转换为文本序列,包括:
通过音频编码器,确定所述语音数据的音频特征数据,并根据目标应用的时延值,将所述音频特征数据存入分块内存;
通过特征数据确定模块,根据分块内存中的音频特征数据,确定与所述语音数据中的字对应的特征数据;
通过解码器,根据字的特征数据,确定所述语音数据中的字,形成所述文本序列。
9.根据权利要求8所述的方法,其特征在于,
所述通过特征数据确定模块,根据分块内存中的音频特征数据,确定与所述语音数据中的字对应的音频特征数据,包括:
确定字与块内存间的对应关系;
根据所述对应关系,确定与字对应的特征数据。
10.根据权利要求9所述的方法,其特征在于,
所述特征数据确定模块包括:预测器;
所述通过特征数据确定模块,根据分块内存中的音频特征数据,确定与所述语音数据中的字对应的特征数据,还包括:
通过所述预测器,确定各个块包括的文本长度;
根据所述文本长度,确定字与块间的对应关系。
11.根据权利要求2所述的方法,其特征在于,
所述确定与所述目标应用对应的目标模型参数,包括:
确定目标应用的语音识别性能需求信息;
根据所述性能需求信息,确定所述目标模型参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010701047.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于HTTPDNS的DNS解析方法及装置
- 下一篇:一种加湿空气净化器