[发明专利]基于改进词袋模型的不良图像检测方法有效
申请号: | 201510117478.7 | 申请日: | 2015-03-15 |
公开(公告)号: | CN104680189B | 公开(公告)日: | 2018-04-10 |
发明(设计)人: | 田春娜;张相南;高新波;王代富;王秀美;王颖;邓成 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/64 | 分类号: | G06K9/64 |
代理公司: | 陕西电子工业专利中心61205 | 代理人: | 王品华,朱红星 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 模型 不良 图像 检测 方法 | ||
技术领域
本发明属于模式识别与计算机视觉的交叉领域,特别涉及结合颜色统计先验和词袋模型的不良图像检测方法,可用于过滤色情图像。
背景技术
随着互联网及无线通信技术的发展,人们更加易于从网上获取大量的有用信息,但是淫秽、色情等不良信息也得以迅速传播。色情图像的传播干扰用户体验正常的网络信息服务,引起严重的社会问题。因此,亟需鲁棒的不良图像信息过滤技术。
由于彩色不良图像中通常含有大量裸露的肤色区域或者人体敏感器官,常用的不良信息检测方法通过分析能反映这些特点的感兴趣区域来过滤不良图像,如在YCbCr空间采用高斯混合模型对肤色进行建模,通过肤色模型提取肤色区域,分析肤色区域中的低层特征来判定该区域是否包含不良信息。中科院自动化所的Hu等在文献“W.Hu,H.Zuo,O.Wu,Y.Chen,Z.Zhang and D.Suter.Recognition of adult images,videos,and web page bags.ACM Transactions on Multimedia Computing,Communications and Applications,vol.7,no.28,pp.1-24,2011.”中采用基于AdaBoost的人体敏感器官检测器,并结合肤色区域的低层特征表示来判断图像的性质,此方法的不足在于传统颜色描述方法所描述的信息不丰富。
由于不良图像的定义有较强的语义特性,基于词袋模型方法因其在语义描述上的优势成为不良图像检测极具潜力的发展方向之一。常用的基于词袋模型的不良图像检测方法首先提取图像的肤色区域,然后在肤色区域提取关键特征点,对这些特征点的尺度不变变换特征SIFT类得到词典,将图像表示成词典中的视觉单词的直方图,从而基于图像的直方图训练不良图像检测器。鉴于不良图像中人体的敏感器官常包含非肤色区域,肤色检测方法往往漏检这部分信息,从而导致对不良信息判定起决定作用的一些特征点丢失。为避免这种情况的出现,可在用词袋模型表示图像的局部特征时考虑融合颜色和梯度信息。如德国人工智能研究中心Ulges等在文献“A.Ulges,A.Stahl.Automatic detection of child pornography using color visual words.In IEEE International Conference on Multimedia and Expo,pp.1-6,Barcelona,Jul.2011.”中在YUV颜色空间的亮度Y、红色差U、蓝色差V通道中分别使用DCT描述子作为图像的局部特征。用这种特征融合方式构建词典时,颜色或梯度任一种特征的变化均需要不同的单词来表示,因此在描述不良图像时需要较大的词典规模,从而使得不良图像的表示更复杂,且在分类过程易出现过拟合问题。中国科学院刘毅志等在文献“刘毅志,杨颖,唐胜,林守勋.基于视觉注意模型VAMAI的敏感图像检测方法.中国图象图形学报,vol.16,no.7,pp.1226-1233,2011.”中采用基于加速稳健特征的词袋模型结合全局颜色特征来表示不良图像。这种方法导致图像的局部区域描述不精确。
发明内容
本发明目的在于针对上述已有技术的不足,提出一种基于改进词袋模型的不良图像检测方法,以提高颜色描述信息的丰富性,减小词典的规模,避免关键特征点的丢失,更加精确描述图像局部区域,实现对不良图像的鲁棒检测。
为实现上述目的,本发明的技术方案包括如下步骤:
(1)收集正常图像与不良图像作为训练集,并标记每幅图像的类别;用高斯差分算子对训练集中的所有图像进行关键特征点检测,将这些关键特征点组成特征点集合T;
(2)对集合T中的关键特征点分别利用尺度不变变换特征SIFT方法和颜色属性CA方法计算关键特征点的梯度特征向量f和颜色特征向量f',对梯度特征向量和颜色特征向量分别进行欧式距离测度下的K-均值聚类;并用梯度特征向量的聚类中心组成图像的梯度词典,用颜色特征向量的聚类中心组成图像的颜色词典;
(3)将训练集中所有图像特征点的梯度特征向量量化为梯度词典中的单词,将训练集中所有图像特征点的颜色特征向量量化为颜色词典中的单词;
(4)通过贝叶斯模型计算每个特征点的颜色单词的类条件概率,并与所对应特征点的梯度单词相乘,统计得到颜色先验加权后的梯度单词直方图;
(5)将训练图像的加权直方图及其类别标记输入支持向量机SVM,训练不良图像分类器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510117478.7/2.html,转载请声明来源钻瓜专利网。