[发明专利]数据处理方法以及设备在审

申请号：	202110763906.9	申请日：	2021-07-06
公开（公告）号：	CN113506584A	公开（公告）日：	2021-10-15
发明（设计）人：	郑炜乔	申请（专利权）人：	腾讯音乐娱乐科技（深圳）有限公司
主分类号：	G10L25/51	分类号：	G10L25/51;G10L25/54;G10L25/30;G10L25/03;G10L25/24;G06F16/683;G06N3/04;G06N3/08
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	熊永强;杜维
地址：	518000 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据处理方法以及设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开一种数据处理方法以及设备，其中方法包括如下步骤：对目标音频文件进行音频过滤，生成有效音频文件；提取所述有效音频文件的声学特征向量；对所述声学特征向量进行解码识别，生成所述目标音频文件对应的目标拼音序列和所述目标拼音序列对应的置信度得分；通过关键词检索库对所述目标拼音序列进行检索，生成所述目标音频文件的检索结果，所述检索结果用于表示是否命中所述关键词检索库中的关键词；根据所述置信度得分和所述检索结果对所述待处理音频文件是否为正常音频进行分析。采用本申请，可以提高对音频文件中关键词的检测效率。

技术领域

本申请涉及互联网技术领域，尤其涉及一种数据处理方法以及设备。

背景技术

在对音频敏感关键词的检测上，目前主要是通过人工检测以及利用技术进行机器鉴别，但在现有技术中，人工检测的方式主要依靠人耳进行辨别，基于人工审核识别的方法，在互联网产品海量的音视频环境下，需要花费大量的人工成本和时间成本，效率低下，长时间听音频容易造成听觉疲劳导致误判现象。利用技术进行机器鉴别主要有两个方案，第一个是将音频进行音转文(语音识别)后再进行关键词的检索和匹配判断，判断输入音频是否包含敏感关键词内容，从而判断音频是否为恶意音频，该方法需要大量的时间和计算资源。第二个是从关键词唤醒的方案出发，一般是训练一个指定关键词的声学模型，采用该方案一般只能针对特定的关键词，可扩展性较差。

发明内容

本申请实施例提供一种数据处理方法以及设备，可以提高对音频文件中关键词的检测效率和准确率，增强可扩展性。

本申请实施例一方面提供了一种数据处理方法，可包括：

对目标音频文件进行音频过滤，生成有效音频文件；

提取有效音频文件的声学特征向量；

对声学特征向量进行解码识别，生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分；

通过关键词检索库对目标拼音序列进行检索，生成目标音频文件的检索结果，检索结果用于表示是否命中关键词检索库中的关键词；

根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。

在一种可行的实施方式中，上述数据处理方法还包括：

确定至少一个关键词，将至少一个关键词进行拼音转换生成每个关键词对应的拼音序列；

将至少一个关键词和关键词对应的拼音序列存储入关键词检索库。

在一种可行的实施方式中，对目标音频文件进行音频过滤之前，还包括：