[发明专利]利用层叠泛化和代价敏感学习的社交网链路异常检测方法有效
申请号: | 202010873947.9 | 申请日: | 2020-08-26 |
公开(公告)号: | CN112073227B | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 刘小洋;叶舒;李祥;苗琛香 | 申请(专利权)人: | 重庆理工大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26;G06N20/20;G06N3/08;G06Q50/00 |
代理公司: | 重庆天成卓越专利代理事务所(普通合伙) 50240 | 代理人: | 王宏松 |
地址: | 400054 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 层叠 泛化 代价 敏感 学习 社交 网链路 异常 检测 方法 | ||
本发明提出了一种利用层叠泛化和代价敏感学习的社交网络链路异常检测方法,包括以下步骤:S1,获取社交网络节点数据,将获取的社交网络节点数据中的相似性指标作为基模型学习的特征;S2,确定基模型的超参数;S3,对基模型的预测结果进行重新学习;得到最终的预测结果;S4,将步骤S3中的结果发送至手持式智能移动终端。本发明能够对社交网络节点链路异常进行预测。
技术领域
本发明涉及一种社交网络技术领域,特别是涉及一种利用层叠泛化和代价敏感学习的社交网络链路异常检测方法。
背景技术
在现实世界中,社交网络无处不在,例如社交网络,协作网络,蛋白质-蛋白质相互作用网络和通信网络。分析这些网络不仅在计算机科学领域,而且在社会学,物理学,生物信息学和统计领域都引起了越来越多的关注。社交网络中的链接预测是一项基本的网络分析任务,指如何预测在网络中尚未通过已知信息(如网络节点和网络结构)连接的两个节点之间生成链接的可能性。应该注意的是,链接预测包括对现有链接的预测和对未来链接的预测。
社交网络的链路预测已经深入研究。在过去的几十年中,已经提出了各种链路预测方法,并且大多数算法都基于网络结构。在这里,我们简要回顾两种用于链接预测的主流方法,相似性方法(包括节点相似性和结构相似性)和似然估计方法。到目前为止,基于相似度的链路预测方法已经取得了一系列成果,并相应地广泛应用于各个领域。基于相似度链路预测方法可以进一步分为三类,即基于邻居的,基于路径的和基于随机游走的方法。最简单的链接预测方法基于以下假设:两个节点如果有更多共同的邻居,则更可能具有链接。Newman首先使用Common Neighbor index(CN)来衡量相似度随后提出了两个节点的索引,并提出了CN的许多变体,例如Salton index,Resource Allocation index(RA),Adamic-Adar index(AA),Jaccard CoefficientHub Promoted index(HPI),Leicht-Holme-Newmanindex(LHN),Preferential Attachment index(PA)等。根据对真实网络的广泛实验,结果表明,RA指数表现最佳,而PA指数的整体表现最差。基于路径方法使用两个节点之间的路径计算节点对的相似性。示例包括Local path index(LP)和Katz指数。LP索引仅考虑长度为2和3的本地路径。Katz索引基于整体所有路径,并且可以在实际网络上获得高性能。基于随机游走的方法使用随机游走来对网络中节点之间的交互进行建模。一些代表性的方法包括Average Commute Time(ACT),SimRank,RandomWalk with Restart(RWR)和Local RandomWalk(LRW)。ACT指数基于平均值随机步行者从一个节点开始到达另一节点所需的步骤数。SimRank测量分别从两个不同的节点开始的两个随机游走者将在某个节点相遇的时间。RWR是一个PageRank算法的直接应用。LRW是一个本地索引,只关注几步随机游动。众所周知,LRW方法优于ACT索引,其计算复杂度低于ACT和RWR。第二类方法是基于似然估计的。Clauset et al.提出了一种通用技术推断网络的层次结构,并进一步将其用于预测丢失的链接。The stochastic block model将网络节点分为几组,任意两个节点之间的连接概率为决定节点属于哪个组。Pan et al.基于预定义的结构哈密顿量最大化观察到的网络的可能性,并通过将链接添加到的条件概率对未观察到的链接评分观察到的网络。Liben-Nowell和Kleinberg提出了链接预测的似然估计方法。之后,相继获得了基于似然分析的新的链接预测方法这些最大似然方法虽然计算复杂度较高,但可以提供有价值的见解。
相似度方法和似然估计方法各有其优缺点。基于相似度的方法具有计算复杂度低的特点,但是其计算结果将受到网络结构的影响。在具有不同结构特征的网络中,计算结果不稳定并且无法获得鲁棒性。基于似然估计的思想具有很强的数学意义和较高的预测精度,但是需要严格的假设,并且计算量大,不适合大规模网络。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆理工大学,未经重庆理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010873947.9/2.html,转载请声明来源钻瓜专利网。