[发明专利]基于滑动窗口的邮件指纹提取方法及邮件相似判断方法有效
申请号: | 201110255082.0 | 申请日: | 2011-08-31 |
公开(公告)号: | CN102323934A | 公开(公告)日: | 2012-01-18 |
发明(设计)人: | 翁善锦;戚国飞;汪志新;丁德平 | 申请(专利权)人: | 深圳市彩讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市科吉华烽知识产权事务所 44248 | 代理人: | 胡吉科;许建 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于滑动窗口的邮件指纹提取方法及邮件相似判断方法,采用基于滑动窗口的邮件指纹提取方法及邮件指纹来判断邮件的相似性程度,在提取邮件指纹过程中,采用滑动窗口块的方法提取邮件正文摘要信息指纹及邮件正文指纹的方法提取邮件指纹,本发明通过获取两种指纹来获取邮件指纹,既提高了邮件差别的准确性,又减少了保存的指纹值,大大方便了邮件相似性的判别,对垃圾邮件的处理效果更好。 | ||
搜索关键词: | 基于 滑动 窗口 邮件 指纹 提取 方法 相似 判断 | ||
【主权项】:
一种基于滑动窗口的邮件指纹提取方法,包括如下步骤:扫描邮件正文:应用滑动窗口扫描邮件正文;获取邮件正文摘要信息的指纹:根据滑动窗口指数加权的指纹算法,采用多个字节来保存邮件正文的摘要信息,每一个字节保存根据加权指数及邮件正文长度确定的邮件正文序列块条件的邮件正文摘要信息,获取该多个字节的邮件正文摘要信息序列值;获取邮件正文的指纹:根据滑动窗口三元组统计的语义相似度算法,设置滑动窗口构造三元组的长度,根据滑动窗口构造的三元组长度构建邮件正文的三元组,采用Hash算法求出每个邮件正文三元组的值,以邮件正文三元组的值作为数组下标保存邮件正文所有三元组的统计,得到邮件指纹的保存数组信息;根据数组统计的平均值设立阀值,将统计大于阀值的数组下标所对应的保存数组位设为1,采用多个字节来保存表示邮件正文所有三元组的统计保存数组值,该多个字节保存的表示邮件正文所有三元组的统计保存数组值为当前邮件正文的指纹;提取邮件的指纹:将邮件正文摘要信息的指纹和邮件正文的指纹作为该邮件的指纹。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市彩讯科技有限公司,未经深圳市彩讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110255082.0/,转载请声明来源钻瓜专利网。
- 上一篇:具有叠加准周期条阵结构的声表面波器件
- 下一篇:一种蒸馏塔进料分布器