[发明专利]一种基于高阶自相关特征的垃圾邮件图像识别方法及装置无效
申请号: | 200810044493.3 | 申请日: | 2008-05-30 |
公开(公告)号: | CN101594314A | 公开(公告)日: | 2009-12-02 |
发明(设计)人: | 程红蓉;刘峤;陈佳;万明成;邓蔚;刘伟 | 申请(专利权)人: | 电子科技大学 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610054四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 相关 特征 垃圾邮件 图像 识别 方法 装置 | ||
技术领域
本发明涉及图像处理与模式识别技术,具体涉及一种垃圾邮件图像的特征提取、识别方 法。
背景技术
经过30多年的发展,电子邮件已成为互连网不可缺少的组成部分,越来越多的人使用电 子邮件作为其交流和通信的工具。然而,垃圾邮件的泛滥使得这一便捷的通信手段受到巨大 挑战。目前,我国已成为垃圾邮件的重灾区之一。据中国互联网协会反垃圾邮件中心于2008 年1月发布的调查报告显示,我国用户收到的邮件中一半以上的邮件是垃圾邮件。垃圾邮件 问题已经引起了社会各界的关注,并出现了大量的垃圾邮件检测算法,例如IP黑名单、基于 行为的过滤方式、基于规则的垃圾邮件检测算法、基于文本内容的检测算法等。其中以基于 文本内容的检测算法研究得最多,其性能也最好。
然而,垃圾邮件制造者自身技术也在不断提高。为逃避高效的基于文本内容的反垃圾邮 件系统的检测,垃圾邮件制造者将文字信息嵌入到图像中,以图像为载体来传播垃圾信息。 该类型的垃圾邮件被称为图像型垃圾邮件,由于其文本内容被嵌入在图像中,导致基于文本 内容的反垃圾邮件系统全部失效。其体积是文本型垃圾邮件的10-20倍,它们一方面消耗大 量的网络资源,导致网络堵塞;另一方面浪费大量的存储资源给社会造成重大经济损失。图 像型垃圾邮件蔓延,已给社会带来极大的负面影响。
为遏制图像型垃圾邮件的传播,弥补基于文本内容的垃圾邮件检测系统的不足,许多学 者对图像型垃圾邮件作了较深入的研究。有学者提出利用光学文字识别技术(OCR)来提取 图像中嵌入的文字,然后利用传统的基于文本内容的垃圾邮件检测手段识别图像型垃圾邮件。 但是垃圾邮件中所嵌入的图像通常含有大量人为干扰,使得文字识别正确率较低,效率也不 高。另外一些学者则提出利用垃圾邮件中所含图像的属性作为特征来识别图像型垃圾邮件, 例如大小、宽、高、面积等。该方法虽然识别速度较快,但仅能识别出较少的图像型垃圾邮 件。还有一些学者主张利用图像的颜色、边缘、文本区域等特征识别图像型垃圾邮件。该类 方法兼顾了识别效率和正确率,取得了令人鼓舞的成绩。图像型垃圾邮件已经爆发将近两年, 如今,其在垃圾邮件中的比例依然相当高,约为8%。因此,反垃圾邮件领域仍在寻找一种快 速高效的图像型垃圾邮件识别算法以彻底解决图像型垃圾邮件问题。
发明内容
本发明主要提出一种垃圾邮件图像识别方法。通过提取邮件中所含图像的高阶自相关特 征,结合支持向量机实现垃圾邮件图像的自动检测与识别。本发明的主要内容包括垃圾邮件 图像的高阶自相关特征及其提取技术、特征的归一化方式、基于支持向量机的垃圾邮件图像 自动识别方法。
1、垃圾邮件图像的高阶自相关特征及其提取技术
垃圾邮件制造者为逃避基于文本内容的反垃圾邮件工具的检测,将大量的文字嵌入到图 像中,借助图像的表现能力来散布垃圾信息。为防止图像中的文字被光学文字识别工具提取 出来,垃圾邮件制造者常常加入大量的人为干扰,使得垃圾邮件图像检测难度较大。然而, 由于垃圾邮件中含有大量文字,因此图像之间存在相似性。高阶自相关函数能够很好的描述 这些特征,并且具有旋转、平移、缩放不变性。N阶自相关函数定义如式(1)所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810044493.3/2.html,转载请声明来源钻瓜专利网。