[发明专利]一种网络暴力视频的识别方法有效

申请号：	201310139552.6	申请日：	2013-04-19
公开（公告）号：	CN103218608B	公开（公告）日：	2017-05-10
发明（设计）人：	胡卫明;邹星宇;吴偶	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62
代理公司：	中科专利商标代理有限责任公司11021	代理人：	宋焰琴
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网络暴力视频识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多示例多特征的网络暴力视频识别方法，该方法包括：

步骤1：从视频共享网站上抓取暴力视频与非暴力视频及其评论、简介构建一个视频数据训练集；

步骤2：从训练集的文本信息中提取文本特征组成文本特征向量来训练文本预分类器，该预分类器筛选出候选的暴力视频；

步骤3：采用基于自适应双阈值的镜头分割算法对所述候选的暴力视频的视频片段进行分割，对每一个镜头提取相关的视觉特征、音频特征来表示该镜头，每一个镜头是多示例学习的一个示例，视频片段是一个包括多个示例的包，该包映射到示例空间；

步骤4：使用MILES算法将所述包转化为单示例，包由单示例的特征向量表达，采用该特征向量训练分类器模型，采用该分类器模型对候选暴力视频进行分类；

其中，所提取的视觉特征和音频特征包括：运动强度特征火焰像素的变化速度特征血液像素的变化特征镜头长度L、音频能量音频能量熵I_s和Mel倒谱系数C_n；

其中，步骤4中使用改进的MILES算法进行示例选择，使多示例问题转换为单示例监督学习问题，所述改进的MILES算法，是将每一个包只选择与正包相似度最高的示例，即选择包中最有用的示例来表达；

其中，步骤3中包括：

假如视频段内相邻p帧与q帧之间的帧间差异SD_p，q的均值为μ，方差为σ，则两个阈值可表达为：

T_b＝μ+α₁σ，α₁∈[5，6]

Ts＝μ+α₂σ，α₂∈[2，3]

检测的基本流程如下：

1、假如SD_p，q＞T_b，p帧与q帧之间发生了镜头的切变；

2、假如SD_p，q＜T_b，p帧与q帧之间没有发生镜头变换；

3、假如T_b＞SD_p，q＞T_s，则q帧被标记为起始帧Fs，从该q帧起计算两类不同的帧之间的差异，一类是相邻的帧之间的差异，一类是起始帧和后续帧之间相隔帧之间的帧间差异SD_p，k，当从q帧开始相隔帧之间帧间差异不断增加时，在相邻帧之间的帧间差异大于T_s的前提下，只要相隔帧之间的帧间差异超过T_b时，则镜头发生了渐变切换；当相邻帧之间的帧间差异小于T_s，而累积帧间差SD_p，k小于T_b时，原来标注的起始帧F_s就被放弃；

然后对镜头提取视频特征和音频特征，包括：

1)运动强度：运动向量的大小即运动强度M，公式如下

$<mrow><msub><mi>M</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><msqrt><mrow><msup><mi>u</mi><mn>2</mn></msup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>+</mo><msup><mi>v</mi><mn>2</mn></msup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow></msqrt></mrow>$

M_k(i)是镜头第k帧的第i块的运动强度；

$<mrow><mover><msub><mi>M</mi><mi>k</mi></msub><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mn>1</mn><mi>n</mi></mfrac><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>n</mi><mo>-</mo><mn>1</mn></mrow></munderover><msub><mi>M</mi><mi>k</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow>$

是镜头第k帧的平均运动强度；

$<mrow><mover><mi>M</mi><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mn>1</mn><mi>m</mi></mfrac><munderover><mo>Σ</mo><mrow><mi>k</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>m</mi><mo>-</mo><mn>1</mn></mrow></munderover><mover><msub><mi>M</mi><mi>k</mi></msub><mo>&OverBar;</mo></mover></mrow>$

是含有m帧的镜头的运动强度；

2)火焰：即火焰像素的变化速度

$<mrow><mover><msub><mi>V</mi><mi>f</mi></msub><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mn>1</mn><msub><mi>M</mi><mi>f</mi></msub></mfrac><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><msub><mi>M</mi><mi>f</mi></msub><mo>-</mo><mn>1</mn></mrow></munderover><mo>|</mo><msub><mi>F</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>-</mo><msub><mi>F</mi><mi>i</mi></msub><mo>|</mo></mrow>$

M_f是镜头中含有火焰像素的帧总数，F_i是第i帧含有的火焰像素百分比；

3)血液：

$<mrow><mover><msub><mi>V</mi><mi>b</mi></msub><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mn>1</mn><msub><mi>M</mi><mi>b</mi></msub></mfrac><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><msub><mi>M</mi><mi>b</mi></msub><mo>-</mo><mn>1</mn></mrow></munderover><mo>|</mo><msub><mi>B</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>-</mo><msub><mi>B</mi><mi>i</mi></msub><mo>|</mo></mrow>$

是血液像素变化特征，M_b是镜头中含有血液像素的帧总数，B_i是第i帧含有的血液像素百分比；

4)镜头长度：即帧总数L；

5)音频能量：

$<mrow><mi>E</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>n</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msubsup><mi>x</mi><mi>i</mi><mn>2</mn></msubsup><mrow><mo>(</mo><mi>n</mi><mo>)</mo></mrow></mrow>$

x_i(n)是音频信号第n个采样点的值，E(i)是整个音频片段的能量；

$<mrow><mover><mi>E</mi><mo>&OverBar;</mo></mover><mo>=</mo><mfrac><mn>1</mn><mi>m</mi></mfrac><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><mi>E</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow>$

表示镜头m个音频片段的平均能量强度；

6)音频能量熵：

$<mrow><msub><mi>I</mi><mi>n</mi></msub><mo>=</mo><mo>-</mo><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>J</mi></munderover><msubsup><mi>σ</mi><mi>i</mi><mn>2</mn></msubsup><msub><mi>log</mi><mn>2</mn></msub><msubsup><mi>σ</mi><mi>i</mi><mn>2</mn></msubsup></mrow>$

是第i个音频片段的能量强度，I_n是第n个音频帧的能量熵；

$<mrow><msub><mi>I</mi><mi>s</mi></msub><mo>=</mo><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mrow><mi>n</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>...</mo><mi>k</mi></mrow></munder><msub><mi>I</mi><mi>n</mi></msub></mrow>$

I_s表示镜头的音频能量熵；

7)Mel倒谱系数，计算过程如下：

(1)对音频信号进行快速傅立叶变换计算；

(2)通过滤波器组滤除杂波；

(3)Mel倒谱系数由离散余弦逆变换获得，计算公式如下：

$<mrow><msub><mi>C</mi><mi>n</mi></msub><mo>=</mo><msqrt><mfrac><mn>2</mn><mi>K</mi></mfrac></msqrt><munderover><mo>Σ</mo><mrow><mi>K</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><mrow><mo>(</mo><mi>log</mi><mi> </mi><msub><mi>S</mi><mi>K</mi></msub><mo>)</mo></mrow><mi>c</mi><mi>o</mi><mi>s</mi><mo>[</mo><mi>n</mi><mrow><mo>(</mo><mi>K</mi><mo>-</mo><mn>0.5</mn><mo>)</mo></mrow><mi>π</mi><mo>/</mo><mi>K</mi><mo>]</mo><mo>,</mo><mi>n</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>L</mi></mrow>$

其中K是三角滤波器的个数，S_K是信号通过第K个三角滤波器后的Mel加权频谱，L是倒频谱的阶数；

在提取以上所述的镜头的视频、音频特征后，镜头x由特征向量表示。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310139552.6/1.html，转载请声明来源钻瓜专利网。

上一篇：手写体数字识别方法及装置
下一篇：一种基于随机几何模型的遥感地物目标自动检测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种网络暴力视频的识别方法有效

专利文献下载