[发明专利]一种音频检测方法、装置、设备及存储介质有效
申请号: | 201811178750.2 | 申请日: | 2018-10-10 |
公开(公告)号: | CN109065069B | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 李振;黄震川;邹昱 | 申请(专利权)人: | 广州市百果园信息技术有限公司 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/18;G10L25/30;G10L25/48;G10L25/78;G10L15/08 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 511442 广东省广州市番禺区南村镇万博*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 检测 方法 装置 设备 存储 介质 | ||
1.一种音频检测方法,其特征在于,包括:
获取音频文件数据;
确定所述音频文件数据对应的属性检测数据,其中,所述属性检测数据包括以下至少两项:用户等级数据、分类概率数据和声纹特征数据;
通过预先训练的全连接网络模型,依据所述属性检测数据进行语音违规行为检测,生成所述音频文件数据对应的语音行为检测结果。
2.根据权利要求1所述的方法,其特征在于,所述确定所述音频文件数据对应的属性检测数据,包括:
对所述音频文件数据进行切片处理,得到至少两帧音频时域信息;
依据所述至少两帧音频时域信息进行特征提取,得到振幅谱特征数据和声纹特征数据;
对所述振幅谱特征数据和所述声纹特征数据进行拼接,生成特征向量数据;
通过预先训练的语音分类模型,依据所述特征向量数据进行语音分类处理,得到作为所述属性检测数据的分类概率数据。
3.根据权利要求2所述的方法,其特征在于,所述依据所述至少两帧音频时域信息进行特征提取,得到振幅谱特征数据,包括:
对所述至少两帧音频时域信息进行频域变换,得到音频频域信息;
基于所述音频频域信息进行振幅谱特征提取,得到所述振幅谱特征数据。
4.根据权利要求1所述的方法,其特征在于,所述确定所述音频文件数据对应的属性检测数据,包括:
对所述音频文件数据进行切片处理,得到至少两帧音频时域信息;
对所述至少两帧音频时域信息进行频域变换,得到音频频域信息;
对所述音频频域信息进行均值处理,得到第一定长数据;
基于所述第一定长数据,通过预先训练的神经网络模型进行声纹特征提取,得到作为所述属性检测数据的声纹特征数据。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
从预设的训练集中,获取待训练音频文件数据;
采用预设的移动窗口,对所述待训练音频文件数据进行切片,得到帧时域信息;
对所述帧时域信息进行频域变换,得到帧频域信息;
对所述帧频域信息进行均值处理,得到第二定长数据;
基于所述第二定长数据和所述音频文件数据对应的标签数据,按照预设的神经网络算法进行训练,得到所述神经网络模型。
6.根据权利要求1所述的方法,其特征在于,还包括:
获取目标用户的历史行为数据,其中,所述历史行为数据包括以下至少一项:历史登录数据、用户消费行为数据、违规历史数据和充值历史数据;
根据所述历史行为数据得到作为所述属性检测数据的用户等级数据。
7.根据权利要求1所述的方法,其特征在于,所述用户等级数据用于表征用户等级,所述分类概率数据用于表征语音违规行为对应的分类概率,声纹特征数据用于表征音频文件数据对应的声纹特征。
8.根据权利要求1至7任一所述的方法,其特征在于,通过预先训练的全连接网络模型,依据所述属性检测数据进行语音违规行为检测,生成所述音频文件数据对应的语音行为检测结果,包括:
将所述属性检测数据输入到所述全连接网络模型进行检测;
将所述全连接网络模型输出的检测结果作为所述语音行为检测结果。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
当所述语音为检测结果为语音违规行为检测结果时,确定所述音频文件数据包含违规语音数据;
禁止传输或播放所述违规语音数据;或者,屏蔽所述违规语音数据对应用户的语音输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市百果园信息技术有限公司,未经广州市百果园信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811178750.2/1.html,转载请声明来源钻瓜专利网。