[发明专利]基于弱标签标注的音频事件监测方法、装置、计算机设备在审

专利信息
申请号: 202010933049.8 申请日: 2020-09-08
公开(公告)号: CN112199549A 公开(公告)日: 2021-01-08
发明(设计)人: 李田;唐会军;刘拴林;梁堃;陈建 申请(专利权)人: 北京数美时代科技有限公司
主分类号: G06F16/683 分类号: G06F16/683;G06F16/68;G06F16/65
代理公司: 北京轻创知识产权代理有限公司 11212 代理人: 赵秀斌
地址: 100012 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 标签 标注 音频 事件 监测 方法 装置 计算机 设备
【说明书】:

发明公开了一种基于弱标签标注的音频事件监测方法、装置、计算机设备。其中,所述方法包括:获取音频事件,和对该音频事件进行无音频帧级别的弱标签标注,和抽取该经无音频帧级别的弱标签标注后的音频事件的音频特征,和采用交叉熵模型方式,对该抽取的音频特征进行训练,以及根据该经训练后的音频特征,匹配该弱标签标注的音频事件的标签的事件信息。通过上述方式,能够实现在无音频帧级别的标注信息下通过训练,给出标签的事件信息。

技术领域

本发明涉及音频事件监测技术领域,尤其涉及一种基于弱标签标注的音频事件监测方法、装置、计算机设备。

背景技术

音频事件监测技术在音频领域一直是核心待攻关的难题。由于音频本身可以包含非常多的事件声学信息,在诸多应用场景上均可以借助音频信息进行事件识别。

随着中国网络基础建设的完善,以及人民生活水平的提高,直播,视频等领域的数据呈现爆发式的增长。因为这类数据大部分具备广播性质,具备一定的社会影响力,经常被不法分子利用来进行谋取利益,包括但不仅限于:传播淫秽涉黄信息,传播违法乱纪行为,言论等等。

2017年,谷歌同Youtube(优兔)公司一起放出了一个包含200万条弱标注tag(标签)音频数据集:GoogleAudioSet。其tag为给定10s(秒)音频中包含的事件类型。其tag有527种,且具备层级关系。该音频数据集极大的推动了弱标注数据下事件监测的理论研究和实践研究,其后续跟进了无数基于该数据集的事件监测方案研究。

然而,现有的音频事件监测方案,一般是采用端到端的监督训练方式,对标注有一定的要求,需要在有精确到音频帧级别的标注信息下通过训练,才能给出标签的事件信息,无法实现在无音频帧级别的标注信息下通过训练,给出标签的事件信息。

发明内容

有鉴于此,本发明的目的在于提出一种基于弱标签标注的音频事件监测方法、装置、计算机设备,能够实现在无音频帧级别的标注信息下通过训练,给出标签的事件信息。

根据本发明的一个方面,提供一种基于弱标签标注的音频事件监测方法,包括:获取音频事件;对所述音频事件进行无音频帧级别的弱标签标注;抽取所述经无音频帧级别的弱标签标注后的音频事件的音频特征;采用交叉熵模型方式,对所述抽取的音频特征进行训练;根据所述经训练后的音频特征,匹配所述弱标签标注的音频事件的标签的事件信息。

其中,所述采用交叉熵模型方式,对所述抽取的音频特征进行训练,包括:采用视觉几何群网络模型对所述抽取的音频特征进行抽象和采用双向循环神经网络对所述抽取的音频特征进行前后文信息的流动以及采用注意力机制对所述抽取的音频特征的核心需要关注的片段数据进行分析推断的方式,对所述抽取的音频特征进行训练。

其中,所述采用视觉几何群网络模型对所述抽取的音频特征进行抽象和采用双向循环神经网络对所述抽取的音频特征进行前后文信息的流动以及采用注意力机制对所述抽取的音频特征的核心需要关注的片段数据进行分析推断的方式,对所述抽取的音频特征进行训练,包括:采用多层视觉几何群网络感知域架构提取所述抽取的音频特征的滤波组件特征,并对所述滤波组件特征的每一层逐步增加卷积核个数,以增强所述滤波组件特征的丰富程度和抽象能力得到高度抽象化的滤波组件特征,和采用双向循环神经网络将所述高度抽象化的滤波组件特征的每一帧和前后文结合进行事件信息提取,和采用注意力机制对所述提取的事件信息进行目标事件的特征聚焦。

其中,所述根据所述经训练后的音频特征,匹配所述弱标签标注的音频事件的标签的事件信息,包括:对所述经训练后的音频特征进行平均并作逻辑回归获得分类结果,根据所述分类结果,匹配所述弱标签标注的音频事件的标签的事件信息。

其中,在所述根据所述经训练后的音频特征,匹配所述弱标签标注的音频事件的标签的事件信息之后,还包括:采用逐帧逻辑回归获取概率并进行维特比搜索的方式,采集所述匹配的标签的事件信息的时间位置信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京数美时代科技有限公司,未经北京数美时代科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010933049.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top