[发明专利]一种色情图像侦测的方法和系统有效
申请号: | 201110421474.X | 申请日: | 2011-12-15 |
公开(公告)号: | CN103164687A | 公开(公告)日: | 2013-06-19 |
发明(设计)人: | 薛晖 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 赵娟 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 色情 图像 侦测 方法 系统 | ||
技术领域
本申请涉及图像识别的技术领域,特别是涉及一种色情图像侦测的方法和一种色情图像侦测的系统,以及,一种训练分类器模型的方法和一种训练分类器模型的系统。
背景技术
随着互联网的快速发展,互联网在为人们认识世界、方便生活、提供帮助的同时,也为有害信息的广泛传播提供了便捷的途径,例如,人们常常会受到含有如色情、暴力等不健康的色情图像和视频的侵扰;网络犯罪活动的现象也日渐增多,如色情小说、色情图像和录像的传播,它们扰乱社会秩序、破坏社会风气,给人们尤其是青少年带来了极大的负面影响。
据统计,全球现有色情网站数以百万,另外,约28%的网站包含成人内容;一个人在互联网上随便点击,每七次就有一次可能点击到色情站点,25%的小网迷曾主动访问色情网站,20%的人曾被动收到色情信息,全球75%的家长明确表示担心不良信息对孩子的负面影响;全球电子邮件中有大约55%是垃圾邮件,而其中色情图片大约占20%左右。
目前,基于图片内容的色情图像侦测算法普遍是基于肤色来进行检测的,即根据肤色的比例来估计目标图像为裸体图像的可能性。然而,这种基于肤色检测的色情图像侦测的算法主要存在如下缺陷:
1、非皮肤图片的错误召回。
这是肤色检测的一个最大问题。在自然界中,有很多物体和表面的颜色和肤色接近,单从肤色角度出发,这类物体表面与人体皮肤并不具有很高的区分度。
2、非色情皮肤图片的错误召回。
传统肤色检测本质上是一种裸体检测算法,即主要是通过皮肤区域的面积来判断一张图片是否是色情的,而这与人类认知的判断是不同的。因此此类算法很容易将某些类别的图片(比如服饰类商品的模特图片)错判为色情图片。
3、无法召回非皮肤的色情图片。
正如2中提到的原因,对某些裸露区域较小的色情图片,该算法往往会失效。因为在实际中,人能知道在某些具有肤色的区域没有必要视作是色情场景;此外,还有其它许多的虽然细小但是十分关键的特征区域,比如暴露的胸部和生殖器等,一旦出现就会直接被归类为色情内容。人能够理解、分辨在什么样的情况下判定为色情场景,可以理解图像的内容。但采用该算法却无法进行准确判断。
因此,目前需要本领域技术人员迫切解决的一个技术问题就是:提高色情图像侦测的召回率和准确率。
发明内容
本申请所要解决的技术问题是提供一种色情图像侦测的方法和装置,以及,一种训练分类器模型的方法和一种训练分类器模型的系统,用以提高色情图像侦测的召回率和准确率。
为了解决上述问题,本申请公开了一种色情图像侦测的方法,包括:
采用包含特征区域的样本图像训练分类器模型;
采用所述分类器模型检测目标图像中的候选特征区域;
按照预置规则判断所述候选特征区域是否为实际特征区域,若是,则判定当前目标图像为色情图像。
优选的是,所述采用包含特征区域的样本图像训练分类器模型的步骤,进一步包括:
采集包含特征区域的正样本图像,以及,不包含特征区域的负样本图像;
对所述正样本图像和负样本图像进行归一化;
针对所述归一化的正样本图像和负样本图像中进行预设特征的计算,获得特征值及特征数量;
根据所述特征值及特征数量训练分类器模型。
优选的是,所述对正样本图像和负样本图像进行归一化的子步骤,进一步包括:
将所述正样本图像和负样本图像缩放至统一尺寸;
和/或,
将所述正样本图像和负样本图像转换为灰度图像。
优选的是,所述预设特征为二值化矩形特征,所述针对归一化的正样本图像和负样本图像中进行预设特征的计算,获得特征值及特征数量的子步骤,进一步包括:
设置至少一种特征模板,所述特征模板包括黑色区域和白色区域;
在当前的正样本图像或负样本图像中的不同位置,选取不同的特征模板,并提取不同尺寸的特征;
统计采用各特征模板在所述正样本图像和负样本图像中所能提取到的特征数量;
以及,
计算各特征的特征值为,所述特征模板中白色区域覆盖图像的像素值之和,减去黑色区域覆盖图像的像素值之和。
优选的是,所述根据特征值及特征数量训练分类器模型的子步骤,进一步包括:
针对各个特征生成初始分类器,所述初始分类器中包括方向参数和分类阈值;
针对每一幅样本图像分配初始化的权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110421474.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于多指纹的识别系统及其方法
- 下一篇:药房贵重、特殊药品管理方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序