[发明专利]基于图片编码的垃圾图片过滤方法无效
申请号: | 201010104138.8 | 申请日: | 2010-01-26 |
公开(公告)号: | CN101794378A | 公开(公告)日: | 2010-08-04 |
发明(设计)人: | 徐从富;陈雅芳 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F17/27;G06Q10/00 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 张法高 |
地址: | 310027*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图片 编码 垃圾 过滤 方法 | ||
技术领域
本发明涉及垃圾图片过滤方法,尤其涉及一种基于图片编码的垃圾图片过 滤方法。
背景技术
近年来,传统的基于内容的垃圾邮件过滤技术已经能够高效地拦截垃圾邮 件,因此垃圾邮件制造者将广告信息嵌入到图片中来躲避基于文本的过滤系统 的检测。这种垃圾图片与传统的文本型垃圾邮件相比占用了更多的网络带宽和 存储资源。
当前的垃圾图片过滤技术主要分为两大类:提取图片内嵌文本来分类垃圾 图片和通过分析图片文件、边缘、色彩等属性作为图片的特征来分类垃圾图片。 两种方法虽然都能识别出一定的垃圾图片,但第一种方法中提取图片文本的过 程十分费时,第二种方法得到的垃圾图片分类结果具有较低的召回率。N-gram 是一种广泛应用于文本分类和自然语言处理等领域的特征提取方法,能够快速、 高效地提取特征,3-gram通常被称为Trigram。
本发明提出一种无需提取垃圾图片内嵌文字,无需检测图片文件、色彩、 边缘属性,通过Base64编码方法编码图片,将图片转换为文本形式,采用Trigram 分词,快速完成图片的特征提取,并采用Binary Features来表示图片特征,生成 特征向量,通过训练SVM能达到很高的分类准确率。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于图片编码的垃圾图片 过滤方法。
基于图片编码的垃圾图片过滤方法,包括以下几个步骤:
1)利用Base64对图片进行编码,将图片转换成文本形式,得到图片文本;
2)使用Trigram对编码后的图片文本进行分词,提取图片特征集,;
3)将步骤2)中提取出的图片特征集作为图片的特征,根据图片的特征空间, 采用Binary Feature把图片表示成一个Boolean特征向量,重复步骤1)~步骤3), 生成Boolean特征向量集;
4)利用LIBLINEAR工具包,使用Boolean特征向量集训练SVM分类器, 得到图片的分类结果。
所述的利用Base64对图片进行编码,将图片转换成文本形式,得到图片文 本步骤为:使用Base64编码将原始图片转换为Base64文本形式,将图片作为文 本进行处理,每种类型的图片都有其特殊的编码规则,Base64就是根据不同类 型图片的特定编码规则将图片编码为文本。
所述的使用Trigram对编码后的图片文本进行分词,提取图片特征集步骤 为:使用Trigram对编码后的图片文本进行分词,得到分词后的Trigram形式的 图片文本信息,每个互异的Trigram为一个图片特征,构成图片的特征集。
所述的图片的特征空间是指预先生成的图片数据集的特征集:使用图片数 据集,采用Trigram切分图片文本,重复步骤1)和步骤2),得到图片数据集 Trigram形式的特征集,构成图片的特征空间。
所述的利用LIBLINEAR工具包,使用Boolean特征向量集训练SVM分类 器,得到图片的分类结果步骤为:采用LIBLINEAR工具箱,使用步骤3)得到 的图片的Boolean特征向量集作为训练数据集输入,调整SVM分类器训练参数 训练分类器,判断图片是垃圾图片还是正常图片。
本发明与现有技术相比具有的有益效果:
1)提出一种对图片编码来预处理图片的方法。Base64编码是一种广泛用于 网络数据(特别是电子邮件)传输的编码方法,使用“A-Z”,“a-z”,“0-9”,“+”, “/”共64个ASCII字符以及一个后缀字符“=”来编码数据。采用编码的方法 来预处理图片,比其他方法(如图片转换,提取图片中内嵌的文字等)更有效、方 便地表示图片。
2)提出一种编码图片,将图片转换为文本提取图片特征的方法,使用Trigram 来切分图片文本,每个不同的Trigram都作为一个特征,避免了提取图片中内嵌 的文字作为图片特征、计算图片灰度值、色彩属性等特征提取方法费时、偏差 较大等效率低的问题。
3)提出一种改进的特征值表示方法,引入Binary Feature来表示图片的特 征,可以获得更好的分类效果。
附图说明
图1是基于图片编码的垃圾图片过滤方法的流程图;
图2是Base64编码的基本原理;
图3是Base64编码字符检索表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010104138.8/2.html,转载请声明来源钻瓜专利网。