[发明专利]图像垃圾信息的检测有效

专利信息
申请号: 200780043462.X 申请日: 2007-10-02
公开(公告)号: CN101573956A 公开(公告)日: 2009-11-04
发明(设计)人: 马丁·贾尔斯·李 申请(专利权)人: 信息实验室有限公司
主分类号: H04N1/00 分类号: H04N1/00;H04N1/32;H04L12/58
代理公司: 北京银龙知识产权代理有限公司 代理人: 许 静
地址: 英国格*** 国省代码: 英国;GB
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 图像 垃圾 信息 检测
【说明书】:

技术领域

发明涉及对于诸如电子邮件等电子对象中的图像垃圾信息的检测,普遍涉及任何类型的参考图像的检测。 

背景技术

垃圾电子邮件会通过使接收者的电子邮件收件箱充斥着大量不需要的消息而导致越发受到讨厌。通常,垃圾信息的内容会包含欺骗性的或是不健康的内容,而引起厌烦或是财务损失。处理这些消息会花费的时间、存储且处理电子邮件系统中的这些垃圾信息所需的资源、以及浪费了的网络资源都是一种经济上的巨大浪费。 

已经开发了类型众多的识别垃圾信息并且从合法的电子邮件中区分垃圾信息的技术。通常,上述技术都是基于已知的垃圾电子邮件和/或已知的非垃圾电子邮件(即,不是垃圾信息的电子邮件)的集合(corpus),并且将这些电子邮件的文本与接受审查的目标(subject)电子邮件的文本进行比较。上述技术当中的一种广泛使用的技术是贝叶斯滤波(Bayesian filtering)。该技术涉及对电子邮件进行句法分析以识别消息中的词或词对。随后基于之前接收到的垃圾信息和非垃圾信息消息中这些词的出现频率来执行概率计算。过滤器随后对消息的概率分配作为垃圾信息或非垃圾信息,并且接收者可基于是否为垃圾信息决定是否读取电子邮件。 

垃圾信息发送者(spammer)采用多种应对方式来伪装他们的垃圾信息,以试图避免他们的消息被这些技术检测为垃圾信息。一种特别开发的方法就是将他们的消息内容描绘成电子邮件中嵌入的图像,而不再是电子邮件的消息中的文本。图像可代表所存在的文本并且向接收者传递含义,然而由于上述文本不作为部分消息存在,因此很难对其分析以检测出垃圾信息。当然容易检测出与集合中的已知的垃圾信息图像相同的垃圾信息图像。然而,图像的本质意味着垃圾信息发送者可直接地改变垃圾信息图像以伪装其和垃圾信息电子邮件中先前出现的图像的相似性,而无需改变对于接收者的目标内容和意义。 

例如,为了阻挠对垃圾信息图像或图像中包含的任意文本的分析,垃圾信息发送者通常使用了如下多种技术来改变它们,包括: 

改变图像的大小; 

改变宽高比; 

包括变化颜色的许多单一像素; 

改变背景或文本颜色;以及 

改变图像格式。 

上述这些以及其他技术可用来着色包含相同的内容异型(contentdissimilar)的图像。对于观察人员而言,几乎感受不到图像之间的差别。但是,因为计算方法使得这些图像密切地相关,这种差别却足以阻挠识别这些图像的努力,并因此将电子邮件检测为垃圾信息。 

在一个方面,本发明涉及即使在垃圾信息发送者已经作出上述改变时,基于已知的垃圾信息图像的集合对电子邮件以及其他电子对象中的垃圾信息图像的检测。 

考虑比垃圾信息图像更常见的那些图像,存在期望检测出作为集合中的参考图像的、诸如电子邮件等电子对象中嵌入的图像以及当改变图像时出现相似问题等多种情况。因此,本发明的更普遍方面涉及在对图像中存在一些有意或无意的改变的情况下,对作为已知的参考图像的集合中一个的电子邮件以及其他电子对象中的图像的检测。 

在分析诸如电子邮件等电子对象的情况中的额外问题在于,执行上述分析所需的速度以及处理能力。需要分析的上述电子对象的数目很巨大。例如,MessageLabs有限公司在2006年10月每周独自扫描超过十亿的电子邮件以发现垃圾信息和诸如恶意软件等其他问题。当对于扫描可利用的时间和处理能力受到实际情况的限制时,为执行分析所需的速度和处理就十分重要。 

在其他的技术领域,存在有许多已知的针对识别目标图像的图像识别技术,例如下面提到的这些技术。 

诸如在US-2006/093,221、US-2006/092,292、WO-2004/008392.、以及JP-2006,053,774中描述的图像索引系统都提取图像的特征,生成这些特征的索 引,并且试图在数据库中匹配这些特征。上述方法却不可能适用于这样的垃圾信息的领域,在该领域垃圾信息发送者主动地试图模糊混乱他们的图像以掩盖那些可被索引的特征。 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于信息实验室有限公司,未经信息实验室有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200780043462.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top