[发明专利]流式语音识别方法、终端设备及介质在审

申请号：	202111119338.5	申请日：	2021-09-24
公开（公告）号：	CN113838468A	公开（公告）日：	2021-12-24
发明（设计）人：	蔡旭浦;张俊杰;彭朋;荣玉军	申请（专利权）人：	中移（杭州）信息技术有限公司;中国移动通信集团有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G10L25/24;G10L15/14;G10L15/16
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	陈文斌
地址：	311100 浙江省杭州市余***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别方法终端设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种流式语音识别方法，终端设备及计算机可读存储介质。所述方法包括：获取词嵌入特征序列以及音频流对应音频特征序列；通过音频编码器对所述音频特征序列进行编码，得到音频上下文序列，以及根据标签编码器对所述词嵌入序列进行编码，得到文本上下文序列，其中，所述音频编码器和所述标签编码器为基于相对位置编码的自注意力编码器；将所述音频上下文序列和所述文本上下文序列输入联合解码器，得到标签的概率分布结果，并根据所述概率分布结果确定识别结果。本发明旨在达成减少语音识别的计算量的效果。

技术领域

本发明涉及语音识别技术领域，尤其涉及流式语音识别方法、终端设备及计算机可读存储介质。

背景技术

语音识别是指通过计算机把语音信号转换为对应的文本的过程，作为人机器语音交互的关键入口，语音识别是人工智能领域中一个重要的研究方向。

在相关技术中，在相关技术中，端到端模型的主流实现方案基于注意力机制，注意力机制可以更好的获取音频和文本的上下文信息，有助于提升识别准确率。但是在传统的基于注意力机制实现语音识别的方案中，由于需要根据每一语音特征的绝对位置确定注意力权重，因此对于流式语音而言，随着语音长度的增加，其计算量也会急速增加。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种流式语音识别方法、终端设备及计算机可读存储介质，旨在达成减少语音识别的计算量的效果。

为实现上述目的，本发明提供一种流式语音识别方法，所述流式语音识别方法包括以下步骤：

获取词嵌入特征序列以及音频流对应音频特征序列；

通过音频编码器对所述音频特征序列进行编码，得到音频上下文序列，以及根据标签编码器对所述词嵌入序列进行编码，得到文本上下文序列，其中，所述音频编码器和所述标签编码器为基于相对位置编码的自注意力编码器；

将所述音频上下文序列和所述文本上下文序列输入联合解码器，得到标签的概率分布结果，并根据所述概率分布结果确定识别结果。

可选地，所述通过音频编码器对所述音频特征序列进行编码，得到音频上下文序列，以及根据标签编码器对所述词嵌入序列进行编码，得到文本上下文序列的步骤之前，还包括：

检测预设的掩膜窗口是否填满；

在所述掩膜窗口已填满时，更新位置编码序列；

基于更新后的所述位置编码序列执行所述通过音频编码器对所述音频特征序列进行编码，得到音频上下文序列，以及根据标签编码器对所述词嵌入序列进行编码，得到文本上下文序列的步骤。

可选地，所述音频编码器将所述音频特征序列作为输入向量，所述标签编码器将所述词嵌入序列作为输入向量。