[发明专利]一种分布式智能邮件分析过滤方法、系统及存储介质有效
申请号: | 201811285183.0 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109151078B | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 施志明;苏再添;吴少华;黄在勇 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | H04L67/1004 | 分类号: | H04L67/1004;H04L67/1097;G06F16/335;G06F40/289 |
代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 郝学江 |
地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 智能 邮件 分析 过滤 方法 系统 存储 介质 | ||
1.一种分布式智能邮件分析过滤方法,其特征在于,该方法包括:
负载均衡调度步骤,监控分布式环境下各运算服务器的资源负载情况,把待处理的邮件数据分配到各个运算服务器;
邮件清洗步骤,各个运算服务器把来源于不同邮件客户端的邮件数据进行格式化,统一转换成遵循RFC822及其后续扩展的EML格式,并把文档、图片及压缩包的邮件附件格式化成可阅读的UTF-8编码文本数据;
邮件挖掘步骤,挖掘存在于邮件正文和附件中的线索信息;
邮件索引步骤,把一封EML拆解成多个实体,所述多个实体包括邮件头部、邮件正文和邮件附件,每个实体再拆解成键值对形式的数据,采用ElasticSearch对每个键值对构建索引;
邮件统计步骤,对邮件中收发件人总数、邮箱出现频次、IP出现频次及附件类型分布情况进行智能统计生成统计数据;
邮件分析步骤,对每封邮件的流转生命周期的时间线、邮箱之间的关联关系及邮件发送轨迹的IP进行分析;
其中,所述负载均衡调度步骤的操作为:将待处理的邮件数据上传至分布式存储上,并调用预处理器对邮件数据进行任务归类和拆分的预处理;预处理后的任务记录着任务类别、数据偏移及文件数量信息,将以JSON格式发送给调度中心进行统一调度;调度中心实时监测各个运算服务器的内存、CPU及磁盘IO资源的负载情况,把部分任务平均分配给运算服务器,并对长期未响应的任务进行回收重新分配;运算服务器根据当前的资源使用情况,动态创建若干进程和若干线程进行任务的批量处理;
所述邮件清洗步骤的操作为:各个运算服务器解析各种邮件客户端的数据文件格式,提取每一封邮件的正文信息和附件信息,把提取到的正文信息格式化成遵循RFC822及其后续扩展的EML格式,并写入位于分布式存储上的结果报告目录下,通过文本提取模块将附件信息转换成类型为text/plain以UTF-8编码的纯文本;
所述邮件挖掘步骤的操作为:将清洗出的纯文本利用正则表达式筛选出初步符合条件的手机号、身份证号、邮箱地址、快递单号、报关单号和集装箱号信息;如果筛选出的号码是符合内置正则表达式的,则对筛选出来的号码进行分割,提取区号、编码及校验位信息,对号码进行规则计算,若计算结果与校验位相同,则将该号码与身份标识库中已收集的编码规则进行比较,若匹配则同时入库编码对应的文本信息并记录号码对应的分类、来源及偏移信息并入库;如果筛选出的号码是符合用户自定义正则表达式的,则直接记录该号码对应的分类、来源及偏移信息并入库;
所述邮件索引步骤的操作为:各个计算服务器把一封EML邮件拆分成多个实体,所述多个实体包括邮件头、邮件正文和邮件附件,并生成一个随机的GUID作为这封邮件的这几个实体之间的共同关联关系;将邮件头再拆分成KEY/VALUE的形式作为邮件头部属性,KEY 为属性名,VALUE为属性值,并把VALUE分别以TEXT和KEYWORD格式录入ElasticSearch进行索引,TEXT用于搜索,KEYWORD用于过滤;对于收件人、抄送及暗送有多个VALUE的属性,KEYWORD存储为数组格式,对于时间类型属性,把VALUE拆分为年月日YYYY、YYYYMM、YYYYMMDD三种形式进行索引;对邮件正文分别以一元分词和中文语义分词两种分词器进行分词处理,并分别存入content字段及content.cn字段作为邮件正文属性;对邮件附件分别以一元分词和中文语义分词两种分词器进行分词处理,并分别存入content字段及content.cn字段作为邮件附件属性;将GUID、邮件头部属性和邮件正文属性拼接成一条邮件类型记录,将GUID、邮件头部属性和邮件附件属性拼接成一条附件类型记录,创建邮件标志位表,以父子关系为所述邮件类型记录和附件类型记录分别创建一条子记录,且在构建索引时,除邮件分析表外,还额外创建一张标志 位表作为邮件分析表的子表,把后续对邮件的打标签、排除操作以独立的表格进行处理,子表的更新不影响父表的数据;
所述邮件统计步骤的操作为:根据用户选择的过滤条件,创建过滤集FilterSet,对过滤集FilterSet使用ElasticSearch的term接口,对发件人地址from_address及收件人地址to_address属性的不重复值进行统计,统计出收发件人总数,对客户ip_client和服务器ip_server属性进行不重复值的统计,计算出IP出现频次,对附件类型file_type属性进行不重复值的统计,计算出附件类型的分布情况;所述邮件分析步骤的操作为: 以所选邮件的邮件ID message-id作为查询条件,使用ElasticSearch的 query接口,对所有邮件的邮件ID message-id和引用ID references属性进行查询,对查询结果进行以发送时间sendTime进行排序,按时间顺序展示出邮件的流转生命周期,对所有邮件的发件人地址from_address及收件人地址to_address字段进行term过滤,筛选出所有的收发件人,根据收件人和发件人,绘制账号之间的关联关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811285183.0/1.html,转载请声明来源钻瓜专利网。