[发明专利]使用多尺度文本指纹的文档分类有效
申请号: | 201480007764.1 | 申请日: | 2014-02-04 |
公开(公告)号: | CN104982011B | 公开(公告)日: | 2018-12-14 |
发明(设计)人: | 阿德里安·托马;马里厄斯·尼古拉·蒂贝卡 | 申请(专利权)人: | 比特梵德知识产权管理有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58 |
代理公司: | 北京律盟知识产权代理有限责任公司 11287 | 代理人: | 张世俊 |
地址: | 塞浦路斯*** | 国省代码: | 塞浦路斯;CY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 尺度 文本 指纹 文档 分类 | ||
所描述的系统及方法允许根据文档特定的文本指纹进行例如电子邮件消息及HTML文档的电子文档的分类。所述文本指纹是针对每一目标文档的文本块予以计算,且包括根据所述相应文本块的多个文本标记而确定的字符序列。在一些实施例中,通过针对短文本块进行放大且针对长文本块进行缩小,将所述文本指纹的长度强制为在预定长度范围(例如,在129与256个字符之间)内,而不管所述文本块的长度如何。例如,分类可包含确定电子文档表示未经请求的通信(垃圾邮件)还是例如网络钓鱼的网上诈骗。
背景技术
本发明涉及用于分类电子文档的方法及系统,且尤其涉及用于筛选未经请求的电子通信(垃圾邮件)且检测诈骗性网上文档的系统及方法。
未经请求的电子通信(也称为垃圾邮件)形成全球通信业务的显著部分,从而影响计算机消息传递服务及电话消息传递服务两者。垃圾邮件可呈许多形式,从未经请求的电子邮件通信到伪装成各种互联网站点(例如,网志及社交网络站点)上的用户评论的垃圾邮件消息。垃圾邮件占用宝贵的硬件资源、影响生产率,且被通信服务及/或互联网的许多用户视为讨厌的及打扰的。
网上诈骗(尤其是呈网络钓鱼及身份盗用的形式)已正对全球互联网用户造成日益增加的威胁。由在互联网上操作的国际犯罪网络诈骗性地获得的敏感身份信息(例如用户姓名、ID、密码、身份证号码及医疗记录、银行及信用卡明细)用于提取私人资金及/或进一步卖给第三方。除了给个人造成直接的金融损失以外,网上诈骗也造成一系列有害的副作用,例如公司日益增加的安全成本、较高的零售价格及银行收费、下跌的股票价值、较低的工资及下降的税收收入。
在示范性网络钓鱼尝试中,虚假网站(也称为克隆)可伪装成属于网上零售商或金融机构的正版网页,要求用户输入一些个人信息(例如,用户名或密码)或一些金融信息(例如,信用卡号、账号或安全代码)。一旦毫无戒心的用户提交所述信息,其就可由所述虚假网站搜集。另外,用户可被引导到另一网页,其能够在用户的计算机上安装恶意软件。所述恶意软件(例如,病毒、特洛伊木马)能够通过记录由用户在访问某些网页时键入的密钥而继续窃取个人信息,且能够将用户的计算机变换成用于发动其它网络钓鱼及垃圾邮件攻击的平台。
在垃圾电子邮件或电子邮件诈骗的情况下,在用户或电子邮件服务提供商的计算机系统上运行的软件可用于将电子邮件消息分类为垃圾邮件/非垃圾邮件(或诈骗性/合法),且甚至区分各种种类的消息,例如,区分产品提供、成人内容及尼日利亚诈骗。垃圾邮件/诈骗性消息可随后被引导到特殊文件夹或被删除。类似地,在内容提供商的计算机系统上运行的软件能够用于拦截发布到由相应内容提供商托管的网站的垃圾邮件/诈骗性消息,且防止显示相应消息,或向所述网站的用户显示所述相应消息可为诈骗性或垃圾邮件的警告。
已提出用于识别垃圾邮件及/或网上诈骗的若干方法,其包含使消息的发端地址与已知违法或受信任地址列表(分别称为黑名单及白名单的技术)匹配、搜索某些字或字形(例如,再融资、股票),及分析消息标头。有时结合自动化数据分类方法(例如,贝叶斯(Bayesian)筛选、神经网络)而使用特征提取/匹配方法。
一些所提出的方法使用散列以产生电子文本消息的紧凑表示。此类表示允许有效的消息间比较,其用于垃圾邮件或诈骗检测目的。
垃圾邮件发送者及网上诈骗者试图通过使用各种迷惑方法(例如,拼错某些字、将垃圾邮件及/或诈骗性内容嵌入到伪装成合法文档的较大文本块中,及将消息的形式及/或内容从一个分布波更改到另一分布波)而避开检测。使用散列的反垃圾邮件及反诈骗方法通常易受此类迷惑的干扰,这是因为文本的小改变可产生实质上不同的散列。成功的检测可因此受益于能够识别多态垃圾邮件及诈骗的方法及系统。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于比特梵德知识产权管理有限公司,未经比特梵德知识产权管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480007764.1/2.html,转载请声明来源钻瓜专利网。