[发明专利]一种电子邮件网络的社区结构发现方法及系统在审
申请号: | 202010469233.1 | 申请日: | 2020-05-28 |
公开(公告)号: | CN111726279A | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 杜航原 | 申请(专利权)人: | 山西大学 |
主分类号: | H04L12/58 | 分类号: | H04L12/58;H04L12/24;G06Q50/00 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 030091*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子邮件 网络 社区 结构 发现 方法 系统 | ||
1.一种电子邮件网络的社区结构发现方法,其特征在于,所述方法包括:
基于预设电子邮件数据集进行电子邮件网络拓扑建模,构建电子邮件网络;
对构建的电子邮件网络中的每个用户的社区标签进行多次随机初始化,并利用标签传播方法生成电子邮件网络的多个独立社区发现结果;
计算每一独立社区发现结果的模块度,以评价各独立社区发现结果的质量;
基于各独立社区发现结果的模块度,计算各独立社区发现结果的集成权重;
基于各独立社区发现结果的集成权重,将电子邮件网络的多个独立社区发现结果进行加权集成,获得电子邮件网络的集成社区发现结果。
2.如权利要求1所述的电子邮件网络的社区结构发现方法,其特征在于,所述基于预设电子邮件数据集进行电子邮件网络拓扑建模,包括:
通过预设电子邮件数据集的电子邮件数据库的接口获取电子邮件记录数据,并从获取的电子邮件记录数据中抽取出预设类型的属性信息;
基于抽取的预设类型的属性信息,对所述电子邮件记录数据进行预处理;
根据预处理后的电子邮件记录数据获取邮件收发关系,并根据邮件收发关系进行电子邮件网络拓扑建模;其中,电子邮件网络中的顶点表示用户,若两个用户之间存在邮件互发关系,则为表示这两个用户的顶点之间建立一条连边。
3.如权利要求2所述的电子邮件网络的社区结构发现方法,其特征在于,所述预设类型的属性信息包括:用户名称、用户邮件地址、邮件ID、邮件名称、邮件发送地址、邮件接收地址、邮件发送时间以及附件信息;
所述对电子邮件记录数据进行预处理包括:清理垃圾邮件、剔除无效账号,并对字符串形式的邮件地址进行编码转换,存储为连续唯一的数值型数据;
所述电子邮件网络的拓扑表示为Net(U,E);
其中,U={u1,u2,…,uM}表示电子邮件网络中的用户构成的集合,M为用户的数量,um表示第m个用户,1≤m≤M;E=(e1,e2,…,eN)表示电子邮件网络中的连边构成的集合,N为电子邮件网络中连边的数量,en表示第n条连边,1≤n≤N;对于任一用户um,将与其具有连边关系的用户构成的集合记做Neim。
4.如权利要求1所述的电子邮件网络的社区结构发现方法,其特征在于,所述对构建的电子邮件网络中的每个用户的社区标签进行多次随机初始化,并利用标签传播方法生成电子邮件网络的多个独立社区发现结果,包括:
社区标签随机初始化步骤,将电子邮件网络中的各用户随机分配到K个社区当中;其中,K表示电子邮件网络中包含的社区数量;
社区标签迭代更新步骤,针对电子邮件网络的所有用户,利用标签传播方法,依次对电子邮件网络中的每一用户的社区标签进行传播更新;其中,每对电子邮件网络中所有用户进行一次社区标签更新,称为一轮迭代,多次执行迭代更新,直到电子邮件网络中所有用户的社区标签取值不再发生变化,将此时电子邮件网络中所有用户的社区标签构成的集合作为一个独立社区发现结果;
对电子邮件网络独立重复执行预设次数的所述社区标签随机初始化步骤和所述社区标签迭代更新步骤,获得预设数量的相互独立的社区发现结果。
5.如权利要求4所述的电子邮件网络的社区结构发现方法,其特征在于,所述对电子邮件网络中的每一用户的社区标签进行传播更新,包括:
对于电子邮件网络中的第m个用户um,选择与um具有连边关系的各用户对应的社区标签中出现频次最高的社区标签对um的社区标签lm进行更新;若同时存在多个出现频次最高的社区标签,则从中随机选择一个标签值对lm进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010469233.1/1.html,转载请声明来源钻瓜专利网。