[发明专利]语音检测方法、装置、电子设备和存储介质有效
申请号: | 202011327815.2 | 申请日: | 2020-11-24 |
公开(公告)号: | CN112466298B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 周立峰;朱浩齐;李雨珂;杨卫强 | 申请(专利权)人: | 杭州网易智企科技有限公司 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/06;G10L15/02;G10L25/60 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 李静文 |
地址: | 310052 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 检测 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种语音检测方法、装置、电子设备和存储介质,涉及人工智能技术领域,该方法包括:将待检测的音频信息输入语音分类模型以获得第一结果,该第一结果用以确定音频信息与目标对象之间的对应关系;其中,语音分类模型由音频训练信息训练获得,语音分类模型至少包括依次级联的卷积神经网络、循环神经网络以及注意力机制模型,以及用于将卷积神经网络和注意力机制模型各自的输出结果进行融合的融合层。这样,基于训练好的语音分类模型对音频信息进行检测,以确定音频信息与目标对象的对应关系,不需要人工审核,降低了人力成本和时间成本,提高了音频审核效率,可以实现大规模语音数据的审核过滤。
技术领域
本申请涉及人工智能技术领域,更具体地说,涉及一种语音检测方法、装置、电子设备和存储介质。
背景技术
在多媒体爆炸的信息时代,语音的数量和时长呈指数型增长。语音在被上传至网络中时,通常需要对语音进行审核,以避免垃圾语音在网络中传播。在一些场景下,特定人群的语音为垃圾语音。
目前,为了识别上述垃圾语音,通常采用人工审核的方式,即通过人工听语音的方式判断一段语音是否包含特定人群的语音。这需要审核人员听完整段语音,理论上来讲,一个审核人员一天只能审核不超过24小时的语音,效率低下,需要很高的人力成本和时间成本。并且,人工审核的方式无法完成大规模语音数据的审核过滤。
发明内容
本申请实施例提供一种语音检测方法、装置、电子设备和存储介质,用以对语音进行自动检测,降低耗费的人力成本和时间成本,提高了语音审核效率,可以实现大规模语音数据的审核过滤。
一方面,本申请实施例提供一种语音检测方法,包括:
将待检测的音频信息输入语音分类模型以获得第一结果,所述第一结果用以确定所述音频信息与目标对象之间的对应关系;其中,
所述语音分类模型由音频训练信息训练获得,所述语音分类模型至少包括依次级联的卷积神经网络、循环神经网络以及注意力机制模型,以及用于将卷积神经网络和注意力机制模型各自的输出结果进行融合的融合层。
在一种可选的实施方式中,所述语音分类模型由所述目标对象的音频训练信息训练获得,包括:
对所述音频训练信息进行特征提取以获得相应的音频特征数据;
对所述音频特征数据进行数据增强处理,并通过增强后的音频特征数据对所述语音分类模型进行训练。
在一种可选的实施方式中,对所述音频训练信息进行特征提取以获得相应的音频特征数据的步骤包括:
将所述音频训练信息切分为等长的音频片段,对每个所述音频片段分别进行特征提取以获得对应的音频特征数据,所述音频特征数据包括对应于每个音频片段的原始特征数据以及FBank特征数据。
在一种可选的实施方式中,对所述音频特征数据进行数据增强处理的步骤至少包括以下之一:
在FBank特征数据中随机的选取部分频带上对应的特征值,将相应的特征值替换为随机值;
在FBank特征数据中随机的交换至少两个时间片段上对应的特征值。
在一种可选的实施方式中,对所述音频特征数据进行数据增强处理的步骤至少包括以下之一:
在所述原始特征数据中添加随机的噪声特征数据;
将多段所述的原始特征数据相拼接;
改变原始特征数据中的发音速度特征和/或音调特征。
在一种可选的实施方式中,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州网易智企科技有限公司,未经杭州网易智企科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011327815.2/2.html,转载请声明来源钻瓜专利网。