[发明专利]基于半监督的垃圾图片过滤方法有效
申请号: | 201210129234.7 | 申请日: | 2012-04-28 |
公开(公告)号: | CN102663435A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 张卫丰;胡文婷;张迎周;周国强;王慕妮;钱小燕;许碧欢;陆柳敏 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 叶连生 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于半监督的垃圾图片过滤技术研究对图像型垃圾邮件进行检测判定工作时,先提取文本和图片特征进行特征处理,利用已经得到的分类模型进行检测分类,并不断加入新的标签样本,训练分类器,提高分类精度同时误判率将大大降低。经大量实验数据检验证明,该方法构建了一种高效率垃圾邮件网页过滤系统,在保证高准确率的同时,处理效率有很大的提高,并显著减小网页检测时间。 | ||
搜索关键词: | 基于 监督 垃圾 图片 过滤 方法 | ||
【主权项】:
1.一种基于半监督的垃圾图片过滤方法,其特征在于该方法主要包括以下几个部分:图片中的文本、图片特征提取及处理,预测样本点的选择,支持向量机分类器的训练; 步骤1)提取未标签和已标签图片样本中的文本特征向量: 步骤1.1)利用光学识别技术对样本集合中的图片进行批量处理,得到图片中的文字,步骤1.2)用怀卡智能分析环境对步骤1.1)中的结果进行处理,得到.arff格式的文件,文件中每一行的第一列代表一个图像中的文字,第二列代表一个图像的标签,作为图像的文本特征向量,步骤1.3)计算文本特征向量的R值,得到经过处理的文本特征向量,计算公式如下:(1)其中t是一个特征,C是目标分类,是非目标分类,r是一个可调因子,在0到1间取值,是t在C中出现的概率,是t在中出现的概率,计算如下:(2)(3)其中和分别是在C和中有t出现的文档的个数,和别是C和中的文档数;步骤2)提取图片特征向量:采用“健壮特征的加速提取算法”提取样本图片的局部不变特征描述符,构成图片特征向量;步骤3)主动学习提取预测样本:步骤3.1)用已标签的图片集对支持向量机进行训练,得到一个支持向量分类器,步骤3.2)设支持向量机的线性函数为g(x)= w(x)+b,其中x是样本点的向量表示,w,b为常数,步骤3.3)定义一个样本点到线性函数的距离为,并根据该公式计算未标签数据集中图片样本点的距离,选择距离最近的未标签的样本加入训练集,以此得到更新后的训练集;步骤4)训练支持向量机:用更新后的训练集,对原支持向量机算法模型进行训练,当训练所得支持向量机的分类精确度与训练前分类器精确度趋于一致时,分类器已趋于稳定,此时,停止训练;否则,返回步骤3.3)计算得到离超平面最近的样本点,计入并更新训练集合,继续训练分类器,直至分类器趋于稳定;步骤5)用最终训练得到的分类器对未标签样本集合进行分类,得到高精确且稳定的分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210129234.7/,转载请声明来源钻瓜专利网。
- 上一篇:同步发电机-极组
- 下一篇:无线供电装置及其控制方法