[发明专利]语音识别方法、系统、电子设备和存储介质有效
申请号: | 202111577269.2 | 申请日: | 2021-12-22 |
公开(公告)号: | CN113948085B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 陶建华;田正坤;易江燕 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/26;G10L19/24 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 李永叶 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 系统 电子设备 存储 介质 | ||
本发明实施例公开了一种语音识别方法、系统、电子设备和存储介质,涉及语音识别技术领域。该实施例包括:对待识别音频进行编码表示,获得所述待识别音频的声学编码状态向量序列;对所述待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量;确定预设的词表中每一标签的文本预测向量;根据所述声学编码稀疏向量和所述文本预测向量,识别所述待识别音频,确定与所述待识别音频对应的文本内容。本发明实施例通过对待识别音频的声学编码状态向量进行稀疏编码,得到待识别音频的声学编码稀疏向量,从而降低编码帧数以实现降低计算代价,提升语音识别的速度。
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音识别方法、系统、电子设备和存储介质。
背景技术
基于Transducer的语音识别模型在流式语音识别领域具有重要的应用价值,其典型特点就是能够直接适配流式语音识别任务。其采用逐帧计算的方法进行训练和推理,这种方式虽然使其能够直接应用于流式语音识别任务,但是也带来了两方面的问题:
一是对于每帧语音片段都需要单独计算标记的概率分布,训练过程造成极大的内存消耗和计算量,导致计算效率低下;
二是模型在推理过程中需要逐帧推理,由于音频中语音帧过多(典型的一秒钟就包含100帧音频),存在大量的计算量,进而推理速度比较慢。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本发明实施例提供一种语音识别方法、系统、电子设备和计算机可读存储介质。
第一方面,本发明实施例提供了一种语音识别方法,所述方法包括:对待识别音频进行编码表示,获得所述待识别音频的声学编码状态向量序列;对所述待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量;确定预设的词表中每一标签的文本预测向量;根据所述声学编码稀疏向量和所述文本预测向量,识别所述待识别音频,确定与所述待识别音频对应的文本内容。
在可选的实施例中,对所述待识别音频的声学编码状态向量序列进行稀疏编码,获得声学编码稀疏向量包括:计算所述声学编码状态向量序列中每一声学编码状态向量映射至所述预设的词表中每一标签的概率,根据所述概率,确定切分点;基于所述切分点,对所述声学编码状态向量序列进行切分,获得声学编码切分序列;对所述声学编码切分序列进行稀疏编码,获得声学编码稀疏向量。
在可选的实施例中,对待识别音频进行编码表示,获得所述待识别音频的声学编码状态向量序列包括:获取所述待识别音频的声学特征;对所述待识别音频的声学特征进行编码表示,获得所述待识别音频的声学编码状态向量序列。
在可选的实施例中,所述标签包括空格标签和非空格标签;
计算所述声学编码状态向量序列中每一声学编码状态向量映射至所述预设的词表中每一标签的概率,根据所述概率,确定切分点包括:对所述声学编码状态向量序列中每一声学编码状态向量进行线性映射,确定所述声学编码状态向量映射至所述预设的词表中每一标签的概率分布;根据所述概率分布,确定所述声学编码状态向量映射至非空格标签集合的概率;根据所述声学编码状态向量映射至非空格标签集合的概率,确定切分点。
在可选的实施例中,根据所述声学编码状态向量映射至非空格标签集合的概率,确定切分点包括:将非空格标签集合的概率大于预设阈值的声学编码状态向量标记为触发尖峰;将两个相邻的所述触发尖峰的中间位置标记为切分点。
在可选的实施例中,所述方法还包括根据下式对所述声学编码切分序列进行稀疏编码,获得声学编码稀疏向量:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111577269.2/2.html,转载请声明来源钻瓜专利网。