[发明专利]基于弱标签标注的音频事件监测方法、装置、计算机设备在审
申请号: | 202010933049.8 | 申请日: | 2020-09-08 |
公开(公告)号: | CN112199549A | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 李田;唐会军;刘拴林;梁堃;陈建 | 申请(专利权)人: | 北京数美时代科技有限公司 |
主分类号: | G06F16/683 | 分类号: | G06F16/683;G06F16/68;G06F16/65 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 赵秀斌 |
地址: | 100012 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 标签 标注 音频 事件 监测 方法 装置 计算机 设备 | ||
本发明公开了一种基于弱标签标注的音频事件监测方法、装置、计算机设备。其中,所述方法包括:获取音频事件,和对该音频事件进行无音频帧级别的弱标签标注,和抽取该经无音频帧级别的弱标签标注后的音频事件的音频特征,和采用交叉熵模型方式,对该抽取的音频特征进行训练,以及根据该经训练后的音频特征,匹配该弱标签标注的音频事件的标签的事件信息。通过上述方式,能够实现在无音频帧级别的标注信息下通过训练,给出标签的事件信息。
技术领域
本发明涉及音频事件监测技术领域,尤其涉及一种基于弱标签标注的音频事件监测方法、装置、计算机设备。
背景技术
音频事件监测技术在音频领域一直是核心待攻关的难题。由于音频本身可以包含非常多的事件声学信息,在诸多应用场景上均可以借助音频信息进行事件识别。
随着中国网络基础建设的完善,以及人民生活水平的提高,直播,视频等领域的数据呈现爆发式的增长。因为这类数据大部分具备广播性质,具备一定的社会影响力,经常被不法分子利用来进行谋取利益,包括但不仅限于:传播淫秽涉黄信息,传播违法乱纪行为,言论等等。
2017年,谷歌同Youtube(优兔)公司一起放出了一个包含200万条弱标注tag(标签)音频数据集:GoogleAudioSet。其tag为给定10s(秒)音频中包含的事件类型。其tag有527种,且具备层级关系。该音频数据集极大的推动了弱标注数据下事件监测的理论研究和实践研究,其后续跟进了无数基于该数据集的事件监测方案研究。
然而,现有的音频事件监测方案,一般是采用端到端的监督训练方式,对标注有一定的要求,需要在有精确到音频帧级别的标注信息下通过训练,才能给出标签的事件信息,无法实现在无音频帧级别的标注信息下通过训练,给出标签的事件信息。
发明内容
有鉴于此,本发明的目的在于提出一种基于弱标签标注的音频事件监测方法、装置、计算机设备,能够实现在无音频帧级别的标注信息下通过训练,给出标签的事件信息。
根据本发明的一个方面,提供一种基于弱标签标注的音频事件监测方法,包括:获取音频事件;对所述音频事件进行无音频帧级别的弱标签标注;抽取所述经无音频帧级别的弱标签标注后的音频事件的音频特征;采用交叉熵模型方式,对所述抽取的音频特征进行训练;根据所述经训练后的音频特征,匹配所述弱标签标注的音频事件的标签的事件信息。
其中,所述采用交叉熵模型方式,对所述抽取的音频特征进行训练,包括:采用视觉几何群网络模型对所述抽取的音频特征进行抽象和采用双向循环神经网络对所述抽取的音频特征进行前后文信息的流动以及采用注意力机制对所述抽取的音频特征的核心需要关注的片段数据进行分析推断的方式,对所述抽取的音频特征进行训练。
其中,所述采用视觉几何群网络模型对所述抽取的音频特征进行抽象和采用双向循环神经网络对所述抽取的音频特征进行前后文信息的流动以及采用注意力机制对所述抽取的音频特征的核心需要关注的片段数据进行分析推断的方式,对所述抽取的音频特征进行训练,包括:采用多层视觉几何群网络感知域架构提取所述抽取的音频特征的滤波组件特征,并对所述滤波组件特征的每一层逐步增加卷积核个数,以增强所述滤波组件特征的丰富程度和抽象能力得到高度抽象化的滤波组件特征,和采用双向循环神经网络将所述高度抽象化的滤波组件特征的每一帧和前后文结合进行事件信息提取,和采用注意力机制对所述提取的事件信息进行目标事件的特征聚焦。
其中,所述根据所述经训练后的音频特征,匹配所述弱标签标注的音频事件的标签的事件信息,包括:对所述经训练后的音频特征进行平均并作逻辑回归获得分类结果,根据所述分类结果,匹配所述弱标签标注的音频事件的标签的事件信息。
其中,在所述根据所述经训练后的音频特征,匹配所述弱标签标注的音频事件的标签的事件信息之后,还包括:采用逐帧逻辑回归获取概率并进行维特比搜索的方式,采集所述匹配的标签的事件信息的时间位置信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京数美时代科技有限公司,未经北京数美时代科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010933049.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于动力电池系统的BDU与熔断器集成模块
- 下一篇:一种分散性土高均质坝