[发明专利]基于音视频融合策略的敏感影片检测方法有效

申请号：	200710304206.3	申请日：	2007-12-26
公开（公告）号：	CN101470897A	公开（公告）日：	2009-07-01
发明（设计）人：	胡卫明;左海强;吴偶	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06T7/00	分类号：	G06T7/00
代理公司：	中科专利商标代理有限责任公司	代理人：	周国城
地址：	100080北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于视频融合策略敏感影片检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及计算机应用技术领域，特别涉及敏感影片检测方法。

背景技术

近年来，伴随着计算机尤其是互联网技术的迅猛发展，敏感信息(主要包括色情小说、图像和影片)的内容和传播方式也发生了显著的变化，人们现在可以足不出户轻而易举地浏览到大量的这类内容。敏感信息的广泛传播和易获取性对广大未成年人有着巨大的伤害，容易影响青少年的身心健康并促使诱发青少年犯罪。和敏感文本及图像内容相比，敏感影片的危害性更大，因为它的场景更逼真，多媒体所带来的感官刺激更强烈。如何充分的利用多媒体敏感影片中的多模态信息是本发明的关键内容。

目前检测敏感影片已存在的技术主要是针对影片中视频图像帧的检测，如专利：CN01124484.4——色情影片的过滤系统及方法、CN02157117.1——敏感视频检测方法和CN200410033540.6——基于运动肤色分割的敏感视频检测方法。判断视频图像帧是否为敏感图像主要依赖的是图像中的肤色信息，而肤色检测在图像背景较为复杂或图象质量较差时往往缺乏鲁棒性，导致误检率较高。通常，影片中都包含两个主要的模态信息：音频信息和视频信息。虽然采用单一模态信息可以对影片进行分类，但分类效果的好坏取决于影片的场景，如视频的光照和音频中的噪声。更加鲁棒的算法是能够将两个模态的信息进行融合。在敏感影片中这两个模态的信息往往是密切相关的，采用多模态融合的方法可以消除单一模态中的不确定性。事实上，我们人类自身在处理大多数问题时就是充分地利用了多模态融合方法，我们往往会把眼睛看到的、耳朵听到的，或触觉感受到的等多方面的信息综合起来对一事物进行判断。更进一步，音频的处理速度往往要明显高于视频的处理速度，通过音频分析可以快速定位影片中的敏感片断，再对该片段进行视频分析进而显著提高影片的处理速度。

发明内容

本发明的目的是提供一种基于音视频融合策略的敏感影片检测方法，亦可用来对当前兴起的网络视频聊天室进行监控。

根据本发明的目的，提出一种敏感影片的检测方法，包括步骤：

通过敏感声音模型建立模块，建立敏感声音的混合高斯模型；

通过音视频分离模块，实现音视频数据的分离和加窗；

通过特征提取模块，实现音频特征提取；

通过分类融合模块，实现敏感声音片段的定位及敏感程度输出；

通过分类融合模块，实现敏感片断视频图像帧的检测，

通过分类融合模块，基于贝叶斯的音视频融合决策，将音频检测结果和视频检测结果相融合，对影片的敏感性做出综合决策。

进一步，所述的建立敏感声音的混合高斯模型包括：

收集敏感声音片段样本，建立敏感声音训练集和测试集；

对敏感声音训练集中的敏感声音片段提取13维梅尔频率倒谱参数(MFCC)特征，包括12维MFCC系数以及能量项，并以其均值向量作为该声音片段的特征；

采用期望最大(EM)算法得到混合高斯模型的各个参数，包括高斯个数、各个高斯的中心和协方差矩阵。

进一步，所述的建立敏感声音的混合高斯模型步骤是独立的离线的过程，只需进行一次，得到的模型参数存储到数据文件中。

进一步，所述敏感片断视频图像帧的检测是指，在与检测到敏感声音片断相同的时间轴区间上截取相应的视频图像帧集合，并对视频图像帧集合的敏感性进行检测。

进一步，所述的敏感声音片段的定位及其敏感程度输出包括：

计算声音片段与训练得到的混合高斯模型各高斯中心的马氏距离，并求其最小值dm；

按照如下公式，计算音频片段的敏感程度：

其中，θd是一个阈值，当dm＜θd时，该声音片断被认为是敏感声音，否则为非敏感声音。

进一步，所述的基于贝叶斯的音视频融合决策过程是采用音频片段的敏感程度来作为与之相应的视频片断敏感与否的先验信息。

附图说明

图1为本发明的系统结构框图。

具体实施方式

下面将结合附图对本发明加以详细说明，应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明的执行环境由以下四个模块组构成：一、敏感声音模型建立模块，该模块的功能是对敏感声音样本进行学习，得到模型参数数据。二、音视频分离模块，该模块的功能是将影片中的音频数据和视频数据相分离。三、特征提取模块，该模块的功能是分别对音频和视频提取其特征。四、分类融合模块，该模块的功能是对音频和视频特征进行分类，并将分类结果进行融合，对影片的敏感性进行综合决策。本发明的整体框架见图1。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200710304206.3/2.html，转载请声明来源钻瓜专利网。

上一篇：铁路货运棚车/集装箱防盗报警方法、系统以及车载设备
下一篇：电子卡发放方法、装置及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T7-00 图像分析，例如从位像到非位像
G06T7-20 .运动分析
G06T7-40 .结构分析
G06T7-60 .图形属性的分析，例如一个图像的区域、重心、周边

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于音视频融合策略的敏感影片检测方法有效

专利文献下载