[发明专利]一种语音识别解码的方法及装置有效
申请号: | 202110594164.1 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113436619B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 程高峰;李鹏;缪浩然;石瑾;张鹏远;孙晓晨;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;国家计算机网络与信息安全管理中心 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/08;G10L19/18;G10L25/18;G10L25/24;G10L25/27;G10L25/30;G10L25/45;G10L25/54;H04L9/32;G10L15/14 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 解码 方法 装置 | ||
1.一种语音识别解码的方法,其特征在于,包括:
确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;
通过经训练的神经网络编码器,处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;
根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列;其中,所述第一加权有限状态转移器的获取包括:根据字符拼写词语的规则以及连续相同字符和空白符的塌缩规则,建立第二加权有限状态转移器;根据文本语料训练集训练基于N元语法规则的统计语言模型,并根据所述统计语言模型建立第三加权有限状态转移器;对所述第二加权有限状态转移器和所述第三加权有限状态转移器进行复合处理,获得所述第一加权有限状态转移器。
2.根据权利要求1所述的方法,其特征在于,所述根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列,包括:根据预先确定的第一加权有限状态转移器上的权重,以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
3.根据权利要求2所述的方法,其特征在于,所述根据预先确定的第一加权有限状态转移器上的权重,以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列,具体包括:
取出第t个子帧所对应的字符或者空白符的发射概率P,并记录当前所有令牌中的最高分数,其中t=1,2,…,N,单个令牌的分数为发射概率P与该令牌权重的和;其中:
A1:当t = 1时,将预设的第一令牌绑定到初始节点,并将第一令牌添加到第1个子帧对应的第一集合中;
A2:当t大于1且小于N时,取出第t-1帧所对应的第一集合中保存的一个第二令牌;将该第二令牌拷贝到该第二令牌所绑定的节点所对应的所有可能转移出去的第t帧的节点,作为第三令牌;将转移边上的权重累计到第三令牌上;若当前记录的最高分数与第三令牌的累计分数差值大于阈值,删除第三令牌;否则保存第三令牌到第二集合中;
A3:判断当前转移边上的输入是否为元符号,若为元符号,则执行A2;否则执行A4;
A4:将第t帧所对应的发射概率P累计到第三令牌上,并从第t-1帧所对应的第一集合中删除第二令牌;若当前第一集合为空集,则执行A5,否则执行A2;
A5:挑选第二集合中保存的各个令牌中分数排名前K的各个第三令牌,并保存在第t帧对应的第一集合中,其中K值大于1且不大于第t帧的节点数;
A6:当第t = N时,挑选第一集合中分数最高的令牌,回溯分数最高的令牌在第四加权有限状态转移器上经过的转移边的输出,组成词语序列。
4.一种语音识别解码的装置,其特征在于,包括:
特征提取模块,用于确定待识别语音的N个子帧所对应的对数梅尔谱特征序列;
神经网络编码器模块,用于处理所述对数梅尔谱特征序列,得到所述N个子帧各自对应的字符或者空白符的发射概率;
识别模块,用于根据第一加权有限状态转移器以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列;
获取模块,用于根据字符拼写词语的规则以及连续相同字符和空白符的塌缩规则,获取第二加权有限状态转移器;根据文本语料训练集训练基于N元语法规则的统计语言模型,并根据所述统计语言模型获取第三加权有限状态转移器;对所述第二加权有限状态转移器和所述第三加权有限状态转移器进行复合处理,获取所述第一加权有限状态转移器。
5.根据权利要求4所述的装置,其特征在于,所述识别模块,用于根据预先确定的第一加权有限状态转移器以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列,包括:根据预先确定的第一加权有限状态转移器上的权重,以及所述N个子帧各自对应的字符或者空白符的发射概率,采用束搜索算法搜索分数最高的词语序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;国家计算机网络与信息安全管理中心,未经中国科学院声学研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110594164.1/1.html,转载请声明来源钻瓜专利网。