[发明专利]一种基于AdaBoost的链路预测算法无效
申请号: | 201210553291.8 | 申请日: | 2012-12-19 |
公开(公告)号: | CN103886169A | 公开(公告)日: | 2014-06-25 |
发明(设计)人: | 秦志光;刘峤;梁棋;秦臻;郑荣辉;沐晓帆;李汝佟 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 adaboost 预测 算法 | ||
技术领域
本发明涉及互联网技术,具体涉及一种链路预测的实现方法。
背景技术
链路预测是链路挖掘中将链接作为挖掘对象的应用。主要预测已经存在但尚未被发现的链接以及尚未链接的节点间未来产生链接的可能性。随着一些链路预测算法开始在商业领域得到应用,与之相关的研究已经成为一个热门领域,其中基于拓扑图的链路预测算法研究工作在近年来受到了广泛重视。例如Facebook采用基于RWR(Random Walk with Restart)的方法预测用户的朋友关系,据此提高好友推荐的成功率。
基于网络拓扑图的链路预测算法主要包括基于节点邻居的相似性,基于最大似然估计以及基于概率模型等三种类型。代表性算法包括基于局部信息相似性的共同邻居(CommonNeighbors)算法,基于路径相似性的Katz算法和基于随机游走相似性的RWR算法。其中,基于节点邻居相似性的链路预测算法研究较早,在实际工作中取得了广泛应用。另一类取得实际推广应用的方法是基于随机游走的链路预测算法。这类算法的基本思想都是对图中节点所有可能的组合进行排序,选择其中最可能出现在新图中的节点对(即图中的边)。然而近一两年来,无论是在对已有算法的改进,还是在提出新算法方面,都没有出现有突破性的成果,基于拓扑的链路预测算法的召回率依然较低。
发明内容
本发明的目的是提供一种基于AdaBoost的链路预测算法。使用本发明提供的实施例,可以对当前网络拓扑图中将来可能发生链接的节点对进行预测。
为了克服当前主流的基于网络拓扑结构的链路预测算法普遍存在召回率较低的问题。通过我们的研究发现,现有的主流链路预测方法的预测结果并不完全相交,利用算法结果的叠加提高召回率。但是,直接累加求和并不可行,因为会降低总的算法精度。据此考虑采用Boosting方法对其进行改进。首先将链路预测问题看作二分类问题,对下一时刻网络中每一条可能存在的边(节点对),其分类结果为两类:存在或不存在。接下来借用Boosting方法通过错误反馈提升弱学习算法得到强学习算法的思想,根据一定的原则选择若干链路预测算法作为弱分类器,基于AdaBoost算法提出并实现了一个新的链路预测方法。
该方法的步骤包括:
读取预测训练样本以及预测测试样本;
为预测训练样本附上其真实所在类的标签值;
为每个样本的权重赋初始值;
选取若干链路预测算法作为弱分类器;
使用各个分类器为训练样本做分类;
计算每个分类器的投票权重;
使用每个分类器为预测测试集合中的样本做分类;
按上述各分类器的分类结果为预测测试集合中的样本投票,做出最终预测;
输出对预测测试集合中样本的预测结果;
最后,实施本发明具有以下有益效果:
本发明实施例的有益效果是,将Boosting思想应用于链接预测之中,相对于现有的各种常用算法而言,具有更高的灵敏度和更低的误报率,能够在显著提高算法召回率的同时,保持计算结果的正确性。
附图说明
附图是本发明改进现有链路预测算法提出的一种基于AdaBoost的链路预测算法的算法流程。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。
在本实施例中,如图所示,提供了一个优化的算法流程:
步骤101、读取预测训练样本以及预测测试样本;
对于预测训练样本以及训练测试样本,读取其信息并生成网络拓扑图。
步骤102、为预测训练样本附上其真实所在类的标签值;
对于一组长度为m的预测训练集合C。Ω表示xi被分类的类型值的集合。对于xi,如果它确实出现在下一时间段的图中,则yi=1,反之,yi=-1。
步骤103、为每个样本的权重赋初始值;
每个样本的权重初始值相等,是整个样本长度的倒数,即为1/m。
步骤104、选取若干链路预测算法作为弱分类器;
按照预测结果互补的原则选取基于节点邻居的相似性,基于最大似然估计以及基于概率模型等三种类型链路预测的方法作为弱分类器。
步骤105、使用各个分类器为训练样本做分类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210553291.8/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用