[发明专利]音频处理方法、装置、电子设备及存储介质在审

申请号：	202011508130.8	申请日：	2020-12-18
公开（公告）号：	CN112614515A	公开（公告）日：	2021-04-06
发明（设计）人：	曾耀武;黄强;谭安林	申请（专利权）人：	广州虎牙科技有限公司
主分类号：	G10L25/87	分类号：	G10L25/87
代理公司：	北京超凡宏宇专利代理事务所(特殊普通合伙) 11463	代理人：	张欣欣
地址：	511495 广东省广州市番禺***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音频处理方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提出一种音频处理方法、装置、电子设备及存储介质，涉及互联网技术领域，通过预设的滑动窗口，并按照时间的先后顺序在音频文件中确定出目标音频片段，并在确定目标音频片段为有声片段，且记录的轮次标记为有效音频的情况下，将目标音频片段添加至预先配置的缓冲区；如此，使得缓冲区内保存的音频片段被用于标注训练样本时，能够减少低质量训练样本的比例，从而提高标注的产出率。

技术领域

本申请涉及互联网技术领域，具体而言，涉及一种音频处理方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的发展，深度学习模型在生活生产中有了更多的应用，比如人机交互、语音识别、电信诈骗检测等。

其中，在对深度学习模型训练之前，需要获取大量有分类标签的训练样本，从而利用对应有分类标签训练样本对深度学习模型进行训练。

然而，在对训练样本进行标注的过程中，可能存在大量质量较低的样本，导致标注的产出率较低。

发明内容

本申请的目的在于提供一种音频处理方法、装置、电子设备及存储介质，能够提高标注的产出率。

为了实现上述目的，本申请采用的技术方案如下：

第一方面，本申请提供一种音频处理方法，所述方法包括：

按照时间的先后顺序，利用预设的滑动窗口在音频文件中确定出目标音频片段；

若确定所述目标音频片段为有声片段，且记录的轮次标记为有效音频，则将所述目标音频片段添加至预先配置的缓冲区；其中，所述轮次标记用于指示当前处理的音频片段为有效音频或无效音频。

第二方面，本申请提供一种音频处理装置，所述装置包括：

滑动模块，用于按照时间的先后顺序，利用预设的滑动窗口在音频文件中确定出目标音频片段；

处理模块，用于若确定所述目标音频片段为有声片段，且记录的轮次标记为有效音频，则将所述目标音频片段添加至预先配置的缓冲区；其中，所述轮次标记用于指示当前处理的音频片段为有效音频或无效音频。

第三方面，本申请提供一种电子设备，所述电子设备包括存储器，用于存储一个或多个程序；处理器；当所述一个或多个程序被所述处理器执行时，实现上述的音频处理方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的音频处理方法。

本申请提供的一种音频处理方法、装置、电子设备及存储介质，通过预设的滑动窗口，并按照时间的先后顺序在音频文件中确定出目标音频片段，并在确定目标音频片段为有声片段，且记录的轮次标记为有效音频的情况下，将目标音频片段添加至预先配置的缓冲区；如此，使得缓冲区内保存的音频片段被用于标注训练样本时，能够减少低质量训练样本的比例，从而提高标注的产出率。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1示出本申请提供的电子设备的一种示意性结构框图。

图2示出本申请提供的音频处理方法的一种示意性流程图。

图3示出本申请提供的音频处理方法的一种场景示意图。

图4示出本申请提供的音频处理方法的一种方框流程图。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州虎牙科技有限公司，未经广州虎牙科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011508130.8/2.html，转载请声明来源钻瓜专利网。