[发明专利]使用多尺度文本指纹的文档分类有效
申请号: | 201480007764.1 | 申请日: | 2014-02-04 |
公开(公告)号: | CN104982011B | 公开(公告)日: | 2018-12-14 |
发明(设计)人: | 阿德里安·托马;马里厄斯·尼古拉·蒂贝卡 | 申请(专利权)人: | 比特梵德知识产权管理有限公司 |
主分类号: | H04L12/58 | 分类号: | H04L12/58 |
代理公司: | 北京律盟知识产权代理有限责任公司 11287 | 代理人: | 张世俊 |
地址: | 塞浦路斯*** | 国省代码: | 塞浦路斯;CY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 尺度 文本 指纹 文档 分类 | ||
1.一种客户端计算机系统,其包括至少一个处理器,所述至少一个处理器经配置以确定目标电子文档的文本指纹,使得所述文本指纹的长度约束在下限与上限之间,其中所述下限及上限为预定的,且其中确定所述文本指纹包括:
选择所述目标电子文档的多个文本标记,其中选择所述多个文本标记包括:
选择所述目标电子文档的初步多个文本标记,
确定所述初步多个文本标记的计数,及
作为响应,当所述初步多个文本标记的所述计数超过预定阈值时,修剪所述初步多个文本标记以形成所选择的多个文本标记,使得所选择的多个标记的计数不超过所述预定阈值;
响应于选择所述多个文本标记,根据所述上限及下限且根据所选择的多个文本标记的所述计数而确定指纹片段大小;
确定多个指纹片段,所述多个指纹片段中的每一指纹片段是根据所选择的多个文本标记中的相异文本标记的散列而确定,每一指纹片段由字符序列组成,所述序列的长度经选择为等于所述指纹片段大小;及
级联所述多个指纹片段以形成所述文本指纹。
2.根据权利要求1所述的客户端计算机系统,其中所述至少一个处理器经进一步配置以:
将所述文本指纹发送到服务器计算机系统;及
从所述服务器计算机系统接收针对所述目标电子文档所确定的目标标签,所述目标标签指示所述目标电子文档所属的文档类别,其中确定所述目标标签包括:
从参考指纹的数据库检索参考指纹,所述参考指纹是针对属于所述类别的参考电子文档而确定,所述参考指纹是根据所述参考指纹的长度而选择,使得所述参考指纹的所述长度在所述上限与下限之间;及
根据比较所述文本指纹与所述参考指纹的结果而确定所述目标电子文档是否属于所述类别。
3.根据权利要求2所述的客户端计算机系统,其中所述文档类别为垃圾邮件类别。
4.根据权利要求2所述的客户端计算机系统,其中所述文档类别为诈骗性文档类别。
5.根据权利要求1所述的客户端计算机系统,其中确定所述文本指纹进一步包括:根据所述相异文本标记的所述散列的位的相异群组而确定所述字符序列中的每一字符。
6.根据权利要求1所述的客户端计算机系统,其中修剪所述初步多个文本标记包括:根据所述初步多个文本标记中的目标文本标记的散列而将所述目标文本标记选择为所选择的多个文本标记。
7.根据权利要求6所述的客户端计算机系统,其中修剪所述初步多个文本标记进一步包括:
确定所述目标文本标记的所述散列是否能被缩小因数整除;及
作为响应,当所述目标文本标记能被所述缩小因数整除时,将所述目标文本标记选择为所选择的多个文本标记。
8.根据权利要求1所述的客户端计算机系统,其中选择所述多个文本标记进一步包括,当所述初步多个文本标记的所述计数超过所述预定阈值时:
确定多个聚合文本标记,所述多个聚合文本标记中的每一聚合文本标记包括所述初步多个文本标记的文本标记集合的级联;及
根据所述聚合文本标记的散列而将所述多个聚合文本标记中的聚合标记选择为所选择的多个文本标记。
9.根据权利要求1所述的客户端计算机系统,其中所述目标电子文档是选自由电子邮件消息及超文本标记语言HTML文档组成的群组。
10.根据权利要求1所述的客户端计算机系统,其中所述相异文本标记包括选自由目标电子通信的字、电子邮件地址及统一资源定位符URL组成的群组的项目。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于比特梵德知识产权管理有限公司,未经比特梵德知识产权管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480007764.1/1.html,转载请声明来源钻瓜专利网。