[发明专利]一种网络暴力视频的识别方法有效

专利信息
申请号: 201310139552.6 申请日: 2013-04-19
公开(公告)号: CN103218608B 公开(公告)日: 2017-05-10
发明(设计)人: 胡卫明;邹星宇;吴偶 申请(专利权)人: 中国科学院自动化研究所
主分类号: G06K9/00 分类号: G06K9/00;G06K9/62
代理公司: 中科专利商标代理有限责任公司11021 代理人: 宋焰琴
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网络 暴力 视频 识别 方法
【权利要求书】:

1.一种基于多示例多特征的网络暴力视频识别方法,该方法包括:

步骤1:从视频共享网站上抓取暴力视频与非暴力视频及其评论、简介构建一个视频数据训练集;

步骤2:从训练集的文本信息中提取文本特征组成文本特征向量来训练文本预分类器,该预分类器筛选出候选的暴力视频;

步骤3:采用基于自适应双阈值的镜头分割算法对所述候选的暴力视频的视频片段进行分割,对每一个镜头提取相关的视觉特征、音频特征来表示该镜头,每一个镜头是多示例学习的一个示例,视频片段是一个包括多个示例的包,该包映射到示例空间;

步骤4:使用MILES算法将所述包转化为单示例,包由单示例的特征向量表达,采用该特征向量训练分类器模型,采用该分类器模型对候选暴力视频进行分类;

其中,所提取的视觉特征和音频特征包括:运动强度特征火焰像素的变化速度特征血液像素的变化特征镜头长度L、音频能量音频能量熵Is和Mel倒谱系数Cn

其中,步骤4中使用改进的MILES算法进行示例选择,使多示例问题转换为单示例监督学习问题,所述改进的MILES算法,是将每一个包只选择与正包相似度最高的示例,即选择包中最有用的示例来表达;

其中,步骤3中包括:

假如视频段内相邻p帧与q帧之间的帧间差异SDp,q的均值为μ,方差为σ,则两个阈值可表达为:

Tb=μ+α1σ,α1∈[5,6]

Ts=μ+α2σ,α2∈[2,3]

检测的基本流程如下:

1、假如SDp,q>Tb,p帧与q帧之间发生了镜头的切变;

2、假如SDp,q<Tb,p帧与q帧之间没有发生镜头变换;

3、假如Tb>SDp,q>Ts,则q帧被标记为起始帧Fs,从该q帧起计算两类不同的帧之间的差异,一类是相邻的帧之间的差异,一类是起始帧和后续帧之间相隔帧之间的帧间差异SDp,k,当从q帧开始相隔帧之间帧间差异不断增加时,在相邻帧之间的帧间差异大于Ts的前提下,只要相隔帧之间的帧间差异超过Tb时,则镜头发生了渐变切换;当相邻帧之间的帧间差异小于Ts,而累积帧间差SDp,k小于Tb时,原来标注的起始帧Fs就被放弃;

然后对镜头提取视频特征和音频特征,包括:

1)运动强度:运动向量的大小即运动强度M,公式如下

<mrow><msub><mi>M</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><msqrt><mrow><msup><mi>u</mi><mn>2</mn></msup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>+</mo><msup><mi>v</mi><mn>2</mn></msup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow></msqrt></mrow>

Mk(i)是镜头第k帧的第i块的运动强度;

<mrow><mover><msub><mi>M</mi><mi>k</mi></msub><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>n</mi><mo>-</mo><mn>1</mn></mrow></munderover><msub><mi>M</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow>

是镜头第k帧的平均运动强度;

<mrow><mover><mi>M</mi><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mn>1</mn><mi>m</mi></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>k</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>m</mi><mo>-</mo><mn>1</mn></mrow></munderover><mover><msub><mi>M</mi><mi>k</mi></msub><mo>&OverBar;</mo></mover></mrow>

是含有m帧的镜头的运动强度;

2)火焰:即火焰像素的变化速度

<mrow><mover><msub><mi>V</mi><mi>f</mi></msub><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mn>1</mn><msub><mi>M</mi><mi>f</mi></msub></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><msub><mi>M</mi><mi>f</mi></msub><mo>-</mo><mn>1</mn></mrow></munderover><mo>|</mo><msub><mi>F</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>-</mo><msub><mi>F</mi><mi>i</mi></msub><mo>|</mo></mrow>

Mf是镜头中含有火焰像素的帧总数,Fi是第i帧含有的火焰像素百分比;

3)血液:

<mrow><mover><msub><mi>V</mi><mi>b</mi></msub><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mn>1</mn><msub><mi>M</mi><mi>b</mi></msub></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><msub><mi>M</mi><mi>b</mi></msub><mo>-</mo><mn>1</mn></mrow></munderover><mo>|</mo><msub><mi>B</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>-</mo><msub><mi>B</mi><mi>i</mi></msub><mo>|</mo></mrow>

是血液像素变化特征,Mb是镜头中含有血液像素的帧总数,Bi是第i帧含有的血液像素百分比;

4)镜头长度:即帧总数L;

5)音频能量:

<mrow><mi>E</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>n</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msubsup><mi>x</mi><mi>i</mi><mn>2</mn></msubsup><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow></mrow>

xi(n)是音频信号第n个采样点的值,E(i)是整个音频片段的能量;

<mrow><mover><mi>E</mi><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mn>1</mn><mi>m</mi></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><mi>E</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow>

表示镜头m个音频片段的平均能量强度;

6)音频能量熵:

<mrow><msub><mi>I</mi><mi>n</mi></msub><mo>=</mo><mo>-</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>J</mi></munderover><msubsup><mi>&sigma;</mi><mi>i</mi><mn>2</mn></msubsup><msub><mi>log</mi><mn>2</mn></msub><msubsup><mi>&sigma;</mi><mi>i</mi><mn>2</mn></msubsup></mrow>

是第i个音频片段的能量强度,In是第n个音频帧的能量熵;

<mrow><msub><mi>I</mi><mi>s</mi></msub><mo>=</mo><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mrow><mi>n</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>...</mo><mi>k</mi></mrow></munder><msub><mi>I</mi><mi>n</mi></msub></mrow>

Is表示镜头的音频能量熵;

7)Mel倒谱系数,计算过程如下:

(1)对音频信号进行快速傅立叶变换计算;

(2)通过滤波器组滤除杂波;

(3)Mel倒谱系数由离散余弦逆变换获得,计算公式如下:

<mrow><msub><mi>C</mi><mi>n</mi></msub><mo>=</mo><msqrt><mfrac><mn>2</mn><mi>K</mi></mfrac></msqrt><munderover><mo>&Sigma;</mo><mrow><mi>K</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><mrow><mo>(</mo><mi>log</mi><mi> </mi><msub><mi>S</mi><mi>K</mi></msub><mo>)</mo></mrow><mi>c</mi><mi>o</mi><mi>s</mi><mo>&lsqb;</mo><mi>n</mi><mrow><mo>(</mo><mi>K</mi><mo>-</mo><mn>0.5</mn><mo>)</mo></mrow><mi>&pi;</mi><mo>/</mo><mi>K</mi><mo>&rsqb;</mo><mo>,</mo><mi>n</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>L</mi></mrow>

其中K是三角滤波器的个数,SK是信号通过第K个三角滤波器后的Mel加权频谱,L是倒频谱的阶数;

在提取以上所述的镜头的视频、音频特征后,镜头x由特征向量表示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310139552.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top