[发明专利]一种语音识别方法、装置、电子设备及存储介质在审
申请号: | 202010265398.7 | 申请日: | 2020-04-07 |
公开(公告)号: | CN111862967A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 蒋栋蔚 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/06;G10L15/26 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 高玉光 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 识别 方法 装置 电子设备 存储 介质 | ||
本申请提供了一种语音识别方法、装置、电子设备及存储介质,通过按照接收时序,将接收到的待识别语音切分为预设时长的多个语音序列,并确定每个语音序列对应的高维特征向量,进而,按照切分次序,依次将每个语音序列的高维特征向量输入至语音识别模型中,得到每个语音序列对应的文本序列,进一步地,基于得到的多个文本序列和每个文本序列对应的切分次序,确定待识别语音的文本信息。这样,实时的接收到语音信息后,通过切分次序得到需要识别的语音序列,并可以按照切分次序,即时将语音序列输入至语音识别模型中,可以快捷方便的实现在线语音识别,识别的准确率高。
技术领域
本申请涉及语音处理技术领域,具体而言,涉及一种语音识别方法、装置、电子设备及存储介质。
背景技术
语音识别(Automatic Speech Recognition,ASR)是以语音为研究对象,通过语音信号处理让机器自动识别和理解人类口述的语音。语音识别技术就是让机器通过识别和理解过程,把语音信号转变为相应的文本的技术。
通常,语音识别都是在离线场景下进行的,鲜少可以实现在线场景下进行语音识别,因此,在保证识别准确性的前提下,如何实现在线语音识别是目前亟待解决的技术问题。
发明内容
有鉴于此,本申请的至少在于提供一种语音识别方法、装置、电子设备及存储介质,通过将切分次序与实时接收的每个语音序列进行关联,并将关联后的语音序列依次输入至语音识别模型中,这样,不仅可以实现在线语音识别,还可以提高语音识别的准确率。
根据本申请的第一方面,提供了一种语音识别方法,所述语音识别方法包括:
按照接收时序,将接收到的待识别语音切分为预设时长的多个语音序列;
确定每个语音序列对应的高维特征向量;
按照切分次序,依次将每个语音序列的高维特征向量输入至语音识别模型中,得到每个语音序列对应的文本序列;
基于得到的多个文本序列和每个文本序列对应的切分次序,确定待识别语音的文本信息。
在本申请的一些实施例中,根据以下步骤确定每个语音序列对应的高维特征向量:
对每个语音序列按照预设长度进行分帧,以及对分帧后的该语音序列进行加窗处理,得到每个语音序列对应的语谱图信息;
从所述语谱图信息中逐帧提取语音特征,得到所述每个语音序列对应的语音特征向量;
对所述语音特征向量进行编码,得到每个语音序列对应的高维特征向量。
在本申请的一些实施例中,针对每个语音序列,所述按照切分次序,依次将每个语音序列的高维特征向量输入至语音识别模型中,得到每个语音序列对应的文本序列,包括:
按照切分次序,依次将待处理的语音序列确定为当前语音序列,以及将当前语音序列对应的高维特征向量确定为当前语音向量;
获取与所述当前语音序列对应的初始状态向量;
将所述当前语音向量和所述初始状态向量输入至所述语音识别模型中,得到所述当前语音序列的文本序列。
在本申请的一些实施例中,所述初始状态向量为在切分次序上,排在所述当前语音序列之前的前一个语音序列输入至所述语音识别模型后,输出的中间状态向量。
在本申请的一些实施例中,当所述当前语音序列为在切分次序上的第一个语音序列时,所述初始状态向量为预设状态向量。
在本申请的一些实施例中,所述将所述当前语音向量和所述初始状态向量输入至所述语音识别模型中,得到所述当前语音序列的文本序列,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010265398.7/2.html,转载请声明来源钻瓜专利网。