[发明专利]语音识别方法和装置、存储介质及电子装置有效
申请号: | 201910780105.6 | 申请日: | 2019-08-22 |
公开(公告)号: | CN110473528B | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 郭欣;唐大闰 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L25/87;G10L25/84 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 周婷婷 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 方法 装置 存储 介质 电子 | ||
本发明公开了一种语音识别方法和装置、存储介质及电子装置。其中,该方法包括:获取待识别的目标音频;将目标音频输入语音识别模型,其中,语音识别模型为利用多个样本音频数据进行训练后得到的用于识别语音的神经网络模型,每个样本音频数据中包括交替标记的噪音标识和语音标识,但噪音标识对应的噪音片段的噪音持续时长和语音标识对应的语音片段的语音持续时长缺省;获取语音识别模型输出的识别结果序列,其中,识别结果序列中包括识别出的噪音片段的噪音持续时长,识别出的语音片段的语音持续时长;根据识别结果序列确定出目标音频中的目标语音。本发明解决了相关技术中语音识别操作的复杂度较高的技术问题。
技术领域
本发明涉及计算机领域,具体而言,涉及一种语音识别方法和装置、存储介质及电子装置。
背景技术
如今,为了从采集到的音频中识别出说话人的语音信息,通常会采用端点检测技术来对音频进行端点检测,以实现从复杂的噪音环境中识别出语音。
然而,在现有的端点检测技术中,往往需要对音频数据进行大量的精细标注,如人为标记出音频数据中噪音片段的起止时间和语音片段的起止时间,才能保证语音识别的准确率。但是精细标注需要消耗大量的人力物力,从而导致语音识别的操作复杂度增加的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语音识别方法和装置、存储介质及电子装置,以至少解决相关技术中语音识别操作的复杂度较高的技术问题。
根据本发明实施例的一个方面,提供了一种语音识别方法,包括:获取待识别的目标音频;将上述目标音频输入语音识别模型,其中,上述语音识别模型为利用多个样本音频数据进行训练后得到的用于识别语音的神经网络模型,每个上述样本音频数据中包括交替标记的噪音标识和语音标识,但上述噪音标识对应的噪音片段的噪音持续时长和上述语音标识对应的语音片段的语音持续时长缺省;获取上述语音识别模型输出的识别结果序列,其中,上述识别结果序列中包括识别出的噪音片段的噪音持续时长,识别出的语音片段的语音持续时长;根据上述识别结果序列确定出上述目标音频中的目标语音。
作为一种可选的实施方式,在获取待识别的目标音频之前,还包括:获取上述多个样本音频数据;对每个上述样本音频数据中的音频数据的类型进行交替标记,得到标记后的上述多个样本音频数据,其中,每个标记后的样本音频数据中包括交替标记的噪音标识和语音标识;将标记后的上述多个样本音频数据输入初始语音识别模型,以训练得到上述语音识别模型。
作为一种可选的实施方式,上述将标记后的上述多个样本音频数据输入初始语音识别模型,以训练得到上述语音识别模型包括:重复执行以下步骤,直至得到上述语音识别模型:从标记后的上述多个样本音频数据中确定出当前样本音频数据,并确定当前语音识别模型,其中,上述当前样本音频数据中包括交替标记的当前噪音标识和当前语音标识;通过上述当前语音识别模型识别出当前识别结果序列,其中,上述当前识别结果序列中包括:当前识别出的噪音片段的噪音持续时长、当前识别出的语音片段的语音持续时长和当前识别出的静音片段的静音持续时长;在上述当前识别结果序列未达到识别收敛条件的情况下,获取下一个样本音频数据作为上述当前样本音频数据;在上述当前识别结果序列达到识别上述收敛条件的情况下,确定上述当前语音识别模型为上述语音识别模型。
作为一种可选的实施方式,上述根据上述识别结果序列确定出上述目标音频中的目标语音包括:根据上述识别结果序列,确定上述识别出的噪音片段的噪音持续时长,上述识别出的语音片段的语音持续时长以及识别出的静音片段的静音持续时长;对上述识别出的静音片段的静音持续时长进行处理,以得到噪音关联片段和语音关联片段;根据上述识别出的语音片段和上述语音关联片段,确定出上述目标语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910780105.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语音识别的方法和系统
- 下一篇:一种基于自注意力机制的流式语音转写系统