[发明专利]一种面向社交网络的安全社区发现方法在审
申请号: | 202211088408.X | 申请日: | 2022-09-07 |
公开(公告)号: | CN115423639A | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 黄诚;曾雨潼;杜予同;余泓豪;陈勇;徐奕鑫 | 申请(专利权)人: | 四川大学 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00;G06F16/35;G06F16/951;G06F16/9536;G06F40/58 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 社交 网络 安全 社区 发现 方法 | ||
1.一种针对社交网络中安全社区的发现方法,该方法以发现社交网络中安全人员组成的社区为核心,识别社交网络上网络安全领域账号并挖掘其间的社交关系,其特征在于,所述方法包括:
步骤1:手动筛选社交网络上所关注网络安全领域的特定安全人员账号作为种子账号;
步骤2:利用单个种子账号的关联信息缩小采样范围,依据种子账号的关联账号构成自我网络,同时对自我网络中的账号数据进行采集作为第一层数据集;
步骤3:对第一层数据集中所有账号的文本数据进行预处理后,提取所有账号特征,得到包含所有账号的特征矩阵作为第二层数据集;
步骤4:使用基于改进后的GBDT模型对第二层数据集中的账号进行判别,剔除非安全人员账号,更新得到仅包含安全人员账号数据的第三层数据集;
步骤5:依据步骤4得到的第三层数据集中的安全人员账号作为节点,节点间的双向关注关系构建初始社交拓扑图,从不同的角度对网络结构间的关联进行建模,以此作为策略依据对边关系进行剪枝,得到包含初始社交拓扑图的第四层数据集;
步骤6:选取步骤5生成的第四层数据集进行局部网络的扩展,以度中心性作为基准选取候选迭代节点,得到包含完整局部网络结构的第五层数据集;
步骤7:根据第五层数据集中的节点特征矩阵和邻接矩阵,基于图神经网络构建下游的重叠社区发现任务,完成对安全社区的划分。
2.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤1中:
步骤1a:手动筛选社交网络上所关注网络安全领域的特定安全人员账号,方法包括:
(1) 基于粉丝量并观察账号内容是否包含网络安全热点事件或主题,收集满足要求的社交网络账号;
(2) 基于网络安全领域机构查找相应的社交网络账号,并收集账号;
(3) 基于关键词查找该领域的影响力较高的文本内容,并收集所属账号。
3.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤2中:
步骤2a:利用单个种子账号的关联信息缩小采样范围,通过网络爬虫和开发者接口采集该种子账号的个人资料和文本数据;
步骤2b:统计个人资料中与种子账号具备关注关系以及在文本数据中产生交互行为的关联账号集合,构成自我网络,并对其中的账号进行去重;
步骤2c:再次利用网络爬虫与开发者接口进行关联账号的个人资料与文本数据采集,完成第一层数据集的获取。
4.根据权利要求1所述的一种针对社交网络中安全社区的发现方法,其特征在于,所述步骤3中:
步骤3a:将所有的文本数据翻译为英文,便于后续的统一预处理;
步骤3b:从收集到的账号文本数据中去除非ASCII字符、标点符号和停用词;
步骤3c:将文本中所有单词中的大写字母全部由小写字母替换,并使用NLTK进行词形还原;
步骤3d:使用特征工程方法对第一层数据集中的账号从如下四个角度生成特征:
资料特征:账号名特征、账号社交特征、账号设置特征;
行为特征:账号发文特征、发文来源特征;
文本特征:文本可读性、关键词特征;
时序特征:发文时序特征;
步骤3e:得到包含账号预处理数据及节点特征矩阵的第二层数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211088408.X/1.html,转载请声明来源钻瓜专利网。