[发明专利]一种邮件指纹提取方法及系统在审
申请号: | 202210581925.4 | 申请日: | 2022-05-26 |
公开(公告)号: | CN114745348A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 刘庆林;王金威;刘正伟;魏海宇;谢辉;安恩庆;李小琼;康柏荣;王鲲 | 申请(专利权)人: | 北京中睿天下信息技术有限公司 |
主分类号: | H04L51/42 | 分类号: | H04L51/42;H04L51/08;G06F21/60;G06F21/64 |
代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 丁彦峰 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 邮件 指纹 提取 方法 系统 | ||
1.一种邮件指纹提取方法,其特征在于,所述方法包括:
从接收到的目标邮件中提取邮件头部分、邮件正文部分以及附件信息部分;
对所述邮件头部分进行邮件头特征提取得到邮件头部特征码;
对所述邮件正文部分进行正文特征提取得到邮件正文特征码;
对所述附件信息部分进行附件特征提取得到邮件附件特征码;
基于邮件头部特征码、邮件正文特征码以及邮件附件特征码对所述目标邮件进行指纹提取。
2.根据权利要求1所述的方法,其特征在于,所述邮件头部分至少包括:
邮件的发件人、收件人、时间、主题、Message-ID、投递路由;还包括RFC规定的头域信息以及邮件中继服务器或邮件网关类设备添加的自定义头域信息。
3.根据权利要求1所述的方法,其特征在于,对所述邮件头部分进行邮件头特征提取得到邮件头部特征码,包括:
去除所有的头域换行符和不可见字符,仅对可见字符内容进行提取;
针对RFC规范中要求的头域按照预设排序提取出头域值的数据;
对于自定义的头域,对厂商标识、功能说明、头域值信息进行提取;
对于重复出现的头域,统计提取出现的次数、头域值;
将各个提取结果进行拼接形成邮件头部特征码。
4.根据权利要求1所述的方法,其特征在于,所述邮件正文部分包括:
PLAIN明文格式、Base64编码格式和Quote-printable编码格式。
5.根据权利要求4所述的方法,当邮件正文部分为PLAIN明文格式时,其特征在于,对所述邮件正文部分进行正文特征提取得到邮件正文特征码,包括:
去除邮件正文中的换行、段落符;
根据邮件正文的长度计算确定采样点的数量和每个采样点的长度;
从邮件正文开始提取采样点数据;
将所有采样点数据进行拼接形成采样指纹;
提取正文数据中的非正文内容字符作为特征指纹;
将采样指纹和特征指纹进行拼接形成邮件正文特征码。
6.根据权利要求4所述的方法,当邮件正文部分为Base64编码或Quote-printable编码后的数据时,其特征在于,对所述邮件正文部分进行正文特征提取得到邮件正文特征码,包括:
记录邮件正文的编码类型;
在Base64编码或Quote-printable编码后,长度计算采样点和采样长度;
从邮件正文开始位置进行采样,拼接为采样指纹;
对于Base64编码格式通过统计大、小写字母、数字以及符号的数量作为统计指纹;对于Quote-printable编码格式通过统计等号以及软换行等字符出现的数量作为统计指纹;
将采样指纹和特征指纹进行拼接形成邮件正文特征码。
7.根据权利要求1所述的方法,其特征在于,对所述附件信息部分包括:
附件名称、媒体类型、附件大小以及编码后分段采样点。
8.根据权利要求1所述的方法,其特征在于,对所述附件信息部分进行附件特征提取得到邮件附件特征码,包括:
提取附件中附件名称、媒体类型、附件大小以及压缩格式信息得到附件信息;
根据存储数据的长度确定采样点和采样长度;
根据采样点位置进行字符特征提取拼接形成采样指纹;
将附件信息和采样指纹拼接形成邮件附件特征码。
9.一种邮件指纹提取系统,其特征在于,所述系统包括:
提取模块,用于从接收到的目标邮件中提取邮件头部分、邮件正文部分以及附件信息部分;
第一特征提取模块,用于对所述邮件头部分进行邮件头特征提取得到邮件头部特征码;
第二特征提取模块,对所述邮件正文部分进行正文特征提取得到邮件正文特征码;
第三特征提取模块,对所述附件信息部分进行附件特征提取得到邮件附件特征码;
指纹提取模块,用于基于邮件头部特征码、邮件正文特征码以及邮件附件特征码对所述目标邮件进行指纹提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中睿天下信息技术有限公司,未经北京中睿天下信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210581925.4/1.html,转载请声明来源钻瓜专利网。