[发明专利]语音识别及编解码方法、装置、电子设备及存储介质有效

申请号：	202111069754.9	申请日：	2021-09-13
公开（公告）号：	CN113889076B	公开（公告）日：	2022-11-01
发明（设计）人：	付晓寅;陈志杰;梁鸣心;杨明顺;贾磊;王海峰	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/16;G10L15/22;G10L19/00
代理公司：	北京鸿德海业知识产权代理有限公司 11412	代理人：	谷春静
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音识别解码方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了语音识别及编解码方法、装置、电子设备及存储介质，涉及智能语音、深度学习及自然语言处理等人工智能领域，其中的语音识别方法可包括：获取待识别的语音的音频特征；对获取到的音频特征进行编码，得到编码特征；对得到的编码特征进行截断处理，得到连续的N个特征片段，N为大于一的正整数；针对任一特征片段，获取对应的历史特征抽象信息，结合历史特征抽象信息对该特征片段进行编码，并对编码结果进行解码，得到该特征片段对应的识别结果，其中，历史特征抽象信息为对已识别的历史特征片段进行特征抽象得到的信息。应用本公开所述方案，可提升识别结果的准确性及提升识别效率等。

技术领域

本公开涉及人工智能技术领域，特别涉及智能语音、深度学习及自然语言处理等领域的语音识别及编解码方法、装置、电子设备及存储介质。

背景技术

自动语音识别是指通过计算机将输入的语音自动转换为对应的文本的过程，随着深度学习技术在语音识别领域的深度研究，特别是端到端语音识别技术的提出，语音识别系统的性能得到了很大的提升。而且，随着各种智能设备的不断普及，大规模词汇量的语音识别产品在智能客服、车载导航以及智能音箱等领域得到了广泛的应用。

大规模词汇量的语音识别中，音频数据的长度大多在千帧以上，甚至达到万帧以上。在进行语音识别时，不但需要保证识别结果的准确率，还需要有比较快的识别效率(即响应速度)，如需要满足识别结果实时展现的要求。而现有技术中还没有一种较好的实现方式。

发明内容

本公开提供了语音识别及编解码方法、装置、电子设备及存储介质。

一种语音识别方法，包括：

获取待识别的语音的音频特征；

对所述音频特征进行编码，得到编码特征；

对所述编码特征进行截断处理，得到连续的N个特征片段，N为大于一的正整数；

针对任一特征片段，获取对应的历史特征抽象信息，结合所述历史特征抽象信息对所述特征片段进行编码，并对编码结果进行解码，得到所述特征片段对应的识别结果，其中，所述历史特征抽象信息为对已识别的历史特征片段进行特征抽象得到的信息。