[发明专利]流式编码和语音识别方法、装置、电子设备以及存储介质在审
申请号: | 202210176226.1 | 申请日: | 2022-02-24 |
公开(公告)号: | CN114530144A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 方菲菲 | 申请(专利权)人: | 杭州中天微系统有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/183 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰;杨雷 |
地址: | 310012 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 编码 语音 识别 方法 装置 电子设备 以及 存储 介质 | ||
1.一种流式编码方法,包括:
基于当前帧序列进行线性变换,得到所述当前帧序列的第一变换序列;
基于先前融合帧序列的第二变换序列,确定历史参考帧序列的第三变换序列;
基于所述第一变换序列和所述第三变换序列进行拼接处理,得到所述当前融合帧序列的第四变换序列;
基于所述第四变换序列,确定用于注意力机制的源序列和上下文序列中的至少一者;
基于所述源序列和所述上下文序列,对所述当前帧序列进行流式编码。
2.根据权利要求1所述的方法,其中,所述方法还包括:
对初始帧序列进行采样,得到多个采样帧;
拼接所述多个采样帧,得到所述当前帧序列。
3.根据权利要求2所述的方法,其中,所述对初始帧序列进行采样,得到多个采样帧,包括:
对初始帧序列进行均匀采样,得到多个采样帧,使得所述初始帧序列的序列长度为所述当前帧序列的序列长度的M倍,M为正整数。
4.根据权利要求2所述的方法,其中,所述方法还包括:
从所述初始帧序列中,确定所述历史参考帧序列,使得所述历史参考帧序列的序列长度为所述当前帧序列的序列长度的N倍,N为正整数。
5.根据权利要求4所述的方法,其中,所述基于先前融合帧序列的第二变换序列,确定历史参考帧序列的第三变换序列,包括:
基于所述当前帧序列的N倍长度,截取先前融合帧序列的第二变换序列,得到历史参考帧序列的第三变换序列。
6.根据权利要求4所述的方法,其中,所述方法还包括:
将所述历史参考帧序列的第三变换序列置于环形缓存中,所述环形缓存包括N个存储区域,每个区域用于存储与所述当前帧序列的序列长度对应的序列;
将所述第一变换序列替换所述第三变换序列中的第N区域,并且将第N区域更新为第1区域。
7.根据权利要求1所述的方法,其中,所述基于先前融合帧序列的第二变换序列,确定历史参考帧序列的第三变换序列,包括:
基于时间戳信息,确定先前融合帧序列的第二变换序列与历史参考帧序列对齐的部分序列,作为历史参考帧序列的第三变换序列。
8.一种语音识别方法,包括:
获取语音数据流;
基于所述语音数据流,生成当前帧序列;
基于流式编码方法,对所述当前帧序列进行流式编码,所述流式编码方法为根据权利要求1-7中任一项所述的方法;
基于流式编码结果,对所述当前帧序列进行语音识别。
9.一种流式编码装置,包括:
第一处理模块,基于当前帧序列进行线性变换,得到所述当前帧序列的第一变换序列;
第二处理模块,基于先前融合帧序列的第二变换序列,确定历史参考帧序列的第三变换序列;
第三处理模块,基于所述第一变换序列和所述第三变换序列进行拼接处理,得到所述当前融合帧序列的第四变换序列;
第四处理模块,基于所述第四变换序列,确定用于注意力机制的源序列和上下文序列中的至少一者;
编码模块,基于所述源序列和所述上下文序列,对所述当前帧序列进行流式编码。
10.一种语音识别装置,包括:
获取模块,获取语音数据流;
生成模块,基于所述语音数据流,生成当前帧序列;
编码模块,基于流式编码方法,对所述当前帧序列进行流式编码,所述流式编码方法为根据权利要求1-7中任一项所述的方法;
识别模块,基于流式编码结果,对所述当前帧序列进行语音识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州中天微系统有限公司,未经杭州中天微系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210176226.1/1.html,转载请声明来源钻瓜专利网。