首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]语音识别方法、装置、介质及电子设备有效

申请号：	202110738271.7	申请日：	2021-06-30
公开（公告）号：	CN113327599B	公开（公告）日：	2023-06-02
发明（设计）人：	董林昊;马泽君	申请（专利权）人：	北京有竹居网络技术有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/16;G10L15/26
代理公司：	北京英创嘉友知识产权代理事务所(普通合伙) 11447	代理人：	曹寒梅
地址：	101299 北京市平***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别方法装置介质电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音识别方法，其特征在于，所述方法包括：

对接收到的语音数据进行编码，获得所述语音数据对应的声学向量序列，其中，所述声学向量序列包含所述语音数据的每一音频帧的声学向量；

根据所述声学向量序列和第一预测模型，获得所述语音数据对应的信息量序列和第一概率序列，其中，所述信息量序列包含每一所述音频帧的信息量，所述第一概率序列包含所述语音数据对应的每一预测字符的第一文本概率分布，基于每一所述音频帧的信息量以所述信息量序列从左到右进行累加以确定与每一预测字符对应的音频帧；

根据所述声学向量序列和第二预测模型，获得第二概率序列，其中，所述第二概率序列中包含每一所述音频帧的文本概率分布；

根据所述第一概率序列和所述第二概率序列，确定目标概率序列，其中，所述目标概率序列包含每一所述预测字符的目标文本概率分布；

根据所述目标概率序列，确定所述语音数据对应的目标文本。

2.根据权利要求1所述的方法，其特征在于，所述根据所述声学向量序列和第一预测模型，获得所述语音数据对应的信息量序列和第一概率序列，包括：

将所述声学向量序列输入所述第一预测模型，获得所述信息量序列；

根据所述信息量序列对所述声学向量序列中所述音频帧的声学向量进行合并，获得字符声学向量序列，其中，所述字符声学向量序列包含每一所述预测字符对应的声学向量；

对所述字符声学向量序列进行解码，获得所述第一概率序列。

3.根据权利要求1所述的方法，其特征在于，所述根据所述声学向量序列和第二预测模型，获得第二概率序列，包括：

将所述声学向量序列输入所述第二预测模型，获得每一所述音频帧的预测概率分布；

针对每一所述音频帧，将该音频帧的预测概率分布中对应于预设字符的概率删除，并对删除后所得的预测概率分布进行归一化，获得该音频帧的文本概率分布。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一概率序列和所述第二概率序列，确定目标概率序列，包括：

根据所述信息量序列对所述第二概率序列中的所述音频帧的文本概率分布进行合并，获得第三概率序列，其中，第三概率序列包含每一所述预测字符的第二文本概率分布；

根据所述第一概率序列和所述第三概率序列，确定所述目标概率序列。

5.根据权利要求4所述的方法，其特征在于，所述根据所述信息量序列对所述第二概率序列中的所述音频帧的文本概率分布进行合并，获得第三概率序列，包括：

按照序列顺序遍历所述信息量序列中的信息量，根据所述信息量的累加和对所述音频帧进行分组，获得多个音频帧组合，其中，除最后一个音频帧组合之外的其他音频帧组合所对应的信息量的累加和相同，每一音频帧组合对应于一个预测字符；

针对每一音频帧组合，将该音频帧组合中的每一音频帧的文本概率分布的加权和，确定为该组音频帧组合对应的预测字符的第二文本概率分布，其中，每一所述音频帧对应的权重是基于所述音频帧属于所述音频帧组合的信息量确定的。

6.根据权利要求4所述的方法，其特征在于，所述根据所述第一概率序列和所述第三概率序列，确定所述目标概率序列，包括：

针对每一所述预测字符，将该预测字符在所述第一概率序列中的第一文本概率分布、和该预测字符在所述第三概率序列中的第二文本概率分布的加权和，确定为该预测字符的目标概率分布。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述第一预测模型为CIF模型，所述第二预测模型为CTC模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司，未经北京有竹居网络技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110738271.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种轻型消防车的储能电池控制系统
下一篇：车辆驾驶行为的规划方法、装置、电子设备、存储介质

同类专利

专利分类

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top