[发明专利]一种基于粗化与局部重叠模块度的邮件挖掘方法在审
申请号: | 201910546136.5 | 申请日: | 2019-06-21 |
公开(公告)号: | CN110275941A | 公开(公告)日: | 2019-09-24 |
发明(设计)人: | 郭昆;张鹏;郭文忠;陈羽中;项冰洁 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06Q10/10;H04L12/58 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 钱莉;蔡学俊 |
地址: | 350108 福建省福州市闽*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于粗化与局部重叠模块度的邮件挖掘方法,根据邮件头日志信息,构建邮件往来网络G;多次迭代遍历,将G中的三角形融合为一个复合节点,得到粗化后的图Gcn;根据Jaccard距离初始化Gcn中所有边对应节点的距离;迭代更新邻居节点间的距离直至所有距离收敛。距离小于1的节点属于同一群组,得到粗化图的群组划分Ccn;还原网络得到邮件往来网络的初始群组划分C;将距离为1的节点加入到使局部重叠模块度增量最大的群组集中得到重叠群组集合Cover;将Cover中群组节点数少于设定阈值的群组合并到与其紧密度最大的群组中,更新Cover最终得到邮件往来网络的群组划分C’输出最终的群组划分结果。本发明克服了传统模块度计算效率低的问题提高重叠群组发现的精度。 | ||
搜索关键词: | 群组 粗化 局部重叠 模块度 重叠群组 距离初始化 传统模块 迭代更新 多次迭代 复合节点 划分结果 还原网络 节点加入 邻居节点 日志信息 网络 初始群 度计算 度最大 节点数 邮件头 挖掘 遍历 构建 收敛 集合 输出 融合 更新 发现 | ||
【主权项】:
1.一种基于粗化与局部重叠模块度的邮件挖掘方法,其特征在于:提供一种系统,该系统包括邮件往来网络构建模块、网络粗化模块、邮件群组识别模块、反粗化模块、重叠邮件群组划分模块、群组优化模块和输出模块;该系统按如下步骤进行邮件挖掘:步骤S1:所述邮件往来网络构建模块获取系统中的邮件头日志信息构建邮件往来网络G:令邮件的发件人和收件人为节点,收发邮件的关系为边,邮件收发人之间的邮件往来频率为权重,构建用于划分群组结构的邮件往来网络G=(V,E,W),其中V表示节点集,E表示边集,W表示边的权重集;步骤S2:所述网络粗化模块读取邮件往来网络G,按照节点的度从小到大的顺序遍历G中的三角形,将构成三角形的三个节点融合为一个复合节点,多次迭代遍历直至粗化率达到设定阈值,结束粗化过程,得到粗化后的图Gcn=(V',E');步骤S3:所述邮件群组识别模块遍历所述粗化后的图Gcn中的所有边,根据Jaccard距离公式初始化所有边对应节点的距离;一条边存在三种不同类型的邻居,分别为直连邻居、共有邻居、专有邻居;根据这三种邻居对节点间距离的影响力,对所有边对应节点的距离进行多次迭代更新,得到节点间的距离趋于0或1;将距离为1的边切断,经过断边处理后,图结构中构成连通分支的节点属于同一群组,得到粗化图的群组划分Ccn;步骤S4:所述反粗化模块根据节点映射关系,将原始邮件往来网络G中的被复合节点加入到复合节点所属的群组中,得到所述邮件往来网络G上的初始群组划分C;步骤S5:所述重叠邮件群组划分模块,利用邮件往来网络上的初始群组划分C进行重叠邮件群组发现;根据节点标签变化所引起的局部重叠模块度增量大小,对距离为1的边所对应的节点进行群组归属判断,得到重叠群组集合Cover;步骤S6:所述群组优化模块根据群组与群组间的紧密度,将所述重叠群组集合Cover中群组节点数少于设定阈值的群组合并到与其紧密度最大的群组中,得到最终的重叠群组集合C';步骤S7:所述输出模块输出最终邮件往来网络的群组划分结果C'。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910546136.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种中文地址识别方法及设备
- 下一篇:一种电子凭据安全事件融合分析方法