[发明专利]垃圾图片识别方法及系统在审
申请号: | 201410198166.9 | 申请日: | 2014-05-12 |
公开(公告)号: | CN104036285A | 公开(公告)日: | 2014-09-10 |
发明(设计)人: | 刘洁 | 申请(专利权)人: | 新浪网技术(中国)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 张璐;方晓明 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾 图片 识别 方法 系统 | ||
技术领域
本发明涉及图像处理技术,尤其涉及一种垃圾图片识别方法及系统。
背景技术
作为互联网蓬勃发展的负面产物——垃圾信息,因其涉及暴力、诈骗、广告、色情、迷信等内容已经严重影响了人们的日常生活。在垃圾信息中以垃圾图片的形式最为多样,相比于垃圾文本信息,其识别的难度也更高。为净化网络环境,垃圾图片的识别已成为研究的热点。
目前,广泛采用的垃圾图片识别方法主要依赖于图片特征值的提取。具体地,提取待识别图片的颜色直方图,判断该颜色直方图与垃圾图片库中的样本垃圾图片的颜色直方图是否为一类;若是,则确定待识别图片识别为垃圾图片。
然而,上述方法对垃圾图片的变动适应性较差。例如,若将垃圾图片的局部稍作改动,则该图片的颜色直方图将发生很大变化。因此,对于背景经过剪切、旋转、颜色变化等处理的垃圾图片上述方法很难将其准确识别。
此外,现有技术中还存在一种通过计算待识别图片MD5(Message Digest Algorithm MD5)值的垃圾图片识别方法,该方法将待识别图片的MD5值与垃圾图片库中的样本垃圾图片的MD5值进行匹配的方式来识别垃圾图片。
但是,该方法同样存在图片变动适应性差的缺点。将待识别图片的局部稍作变化,获取的该图片MD5值就会不同,也就无法对其进行有效的识别。
发明内容
本发明实施例提供了一种垃圾图片识别方法及系统,用以提高垃圾图片识别的准确性。
根据本发明的一个方面,提供了一种垃圾图片识别方法,包括:
提取待识别图片的至少一个局部特征向量;
将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别;其中,所述待识别图片与任意一个样本垃圾图片的比对识别过程具体包括:
对于所述待识别图片的每个局部特征向量,将该局部特征向量作为待判定局部特征向量,并分别计算该待判定局部特征向量到该样本垃圾图片的各局部特征向量的欧氏距离;若计算出的欧氏距离中至少有一个欧氏距离小于第一阈值,则将该待判定局部特征向量确定为与该样本垃圾图片的特征相匹配的局部特征向量;统计所述待识别图片的各局部特征向量中与该样本垃圾图片的特征相匹配的局部特征向量的数量,若统计出的数量大于预设的第二阈值,则将所述待识别图片识别为与该样本垃圾图片相类似的垃圾图片。
较佳地,在所述统计出与该样本垃圾图片的特征相匹配的局部特征向量的数量后,还包括:
若统计出的数量小于或等于所述第二阈值,则确定所述待识别图片与该样本垃圾图片不相类似;并从样本垃圾图片库中未被比对的样本垃圾图片中选取任意一个样本垃圾图片与所述待识别图片进行比对识别。
较佳地,在所述将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别后,还包括:
若确定出所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似,则:
对所述待识别图片进行光学字符识别OCR处理,提取所述待识别图片中的文本信息;
在垃圾文字库中查询所述文本信息,若查询到与所述文本信息相匹配的信息,则将所述待识别图片识别为垃圾图片。
较佳地,在所述将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别后,还包括:
若确定出所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似,则:
提取所述待识别图片的肤色比例与肤色连通域的个数;
若所述肤色比例大于等于第三阈值,并且所述肤色连通域的个数大于等于第四阈值,则将所述待识别图片识别为垃圾图片。
较佳地,在所述将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别后,还包括:
若确定出所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似,则:
从所述待识别图片的二维码中解析出二维码信息;
在垃圾二维码信息库中查询所述二维码信息,若查询到与所述二维码信息相匹配的信息,则将所述待识别图片识别为垃圾图片。
根据本发明的另一个方面,还提供了一种垃圾图片识别系统,包括:
向量提取模块,用于提取待识别图片的至少一个局部特征向量;
图片选取模块,用于从样本垃圾图片库中选取样本垃圾图片,并输出当前选取的样本垃圾图片及其各局部特征向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司,未经新浪网技术(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410198166.9/2.html,转载请声明来源钻瓜专利网。