[发明专利]联结主义时间分类和截断式注意力联合在线语音识别技术有效
申请号: | 202010106791.1 | 申请日: | 2020-02-20 |
公开(公告)号: | CN111179918B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 张鹏远;缪浩然;程高峰;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;中科信利(广州)技术有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/26;G10L15/28;G10L25/24;G10L25/30 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 联结 主义 时间 分类 截断 注意力 联合 在线 语音 识别 技术 | ||
1.一种端对端语音在线语音识别方法,所述方法基于神经网络模型,所述神经网络模型由训练所得,并包括编码器、解码器、注意力截断网络、联结主义时间分类器,所述方法包括:
获取待解码的语音流,提取所述语音流的声学特征流;
编码器根据所述声学特征流,得到编码特征流;
获取留存的汉字序列;将所述留存的汉字序列输入解码器,解码器生成状态序列;
根据所述状态序列,以及编码特征流,所述注意力截断网络截取有效的编码特征;
根据所述有效的编码特征,解码器给出多个所述留存的汉字序列的后续一位预测汉字,每个所述预测汉字和留存的汉字序列构成一个新汉字序列,解码器根据所述新汉字序列,得到第一预测评分;
对齐所述新汉字序列和所述编码特征流,所述联结主义时间分类器根据联结主义时间分类准则对对齐后的新汉字序列进行估算,得到第二预测评分;
根据第一预测评分和第二预测评分,得到综合预测评分,根据所述综合预测评分,保留综合预测评分最高的若干所述新汉字序列;
判断所述新汉字序列是否包含终止符,
若不包含,
将其变为留存汉字序列,输入解码器,继续后续汉字的预测;
若包含,
以所述综合预测评分最高的所述新汉字序列做作为识别结果,并输出。
2.根据权利要求1所述的方法,其中,所述对齐所述新汉字序列和所述语音包括,使用维特比算法对齐所述新汉字序列和所述语音。
3.根据权利要求1所述的方法,其中,所述获取待解码的语音流,提取所述语音流的声学特征流;编码器根据所述声学特征流,得到编码特征流;获取留存的汉字序列;根据所述留存的汉字序列,以及编码特征流,解码器截取有效的语音片段;包括:
将待解码的语音流对应的声学特征序列X=[x1,x2,...,xt]输入编码器,实时地输出新的特征序列H=[h1,h2,...,ht];
同时将存留的汉字序列Y=[sos,y1,...,yi-1]输入解码器,解码器在依次处理存留的汉字序列中的每一个汉字后产生的最终状态si-1,根据最终状态si-1,从上一次截断点τi-1开始依次向后计算H中每帧hj的截断概率,即j=τi-1,τi-1+1,...,
其中,pij为在hj帧的截断概率,Wh和Ws是参数矩阵,b和v是参数向量,g和r是参数标量,sos表示起始符,
当概率第一次大于0.5时停止计算,并将当前j的值作为新的截断点τi;
若在输入的语音流中未能找到满足条件的截断点,则等待新的语音流输入,直至找到满足条件的截断点;
对于解码的初始状态,存留的汉字序列为Yinit=[sos],语音的截断点为τ0=1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;中科信利(广州)技术有限公司,未经中国科学院声学研究所;中科信利(广州)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010106791.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种含有硅藻土的杀虫组合物
- 下一篇:一种新型气垫床