[发明专利]一种基于混合跳转的社交网络采样方法在审
申请号: | 201810259230.8 | 申请日: | 2018-03-27 |
公开(公告)号: | CN108446996A | 公开(公告)日: | 2018-08-24 |
发明(设计)人: | 刘良桂;王玲敏;贾会玲;张宇 | 申请(专利权)人: | 浙江理工大学 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310018 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 采样 社交网络 跳转 采样效果 三次样条 设置参数 性能研究 度分布 社交网 样本集 子网络 三维 抽样 重复 研究 | ||
本发明公开一种基于混合跳转的社交网络采样方法。该方法在社交网采样中,基于现有的经典MHRW(Metropolis‑Hasting Random Walk)采样方法,利用随机跳转策略避免采样陷入局部子网络,可以有效的解决大型复杂社交网络采样问题,从而得到无偏的社交网络样本集数据。并且,本文中第一次使用结合BFS(Breath‑first Search)方法采样速度快且无重复节点入样的优越性和三次样条插值方法建立三维平均度分布模型,确定社交网络采样方法跳转参数最优值。利用此方法更好的为图抽样设置参数的选取提供了指导,使采样方法达到最好的采样效果。本发明研究提供一种社交网络采样方法发新思路,有助于对大型复杂社交网络的性能研究。
技术领域
本发明涉及到社交网络数据采样技术领域,具体是一种基于混合跳转的社交网络采样方法(Hybrid Jump Sampling,HJ Sampling)。
背景技术
近年来,社交网络如Facebook,Twitter正在成为生活种不可或缺的一部分,使得基于互联网的社会化媒体正影响和改变着我们的生活。由《DIGITAL IN 2017 GLOBALOVERVIEW》报告显示,2017年全球各种社交网络的总用户规模为30.28亿,而全世界的人口总数目前为75亿。这意味着,移动互联网用户在社交网络用户中占到了绝大多数比例,全世界由四成的人口在使用社交网络,而且总用户规模还在持续增长着。其中,当今最流行的在线社交网络之一Facebook,它的全球用户总数已突破20亿(2017年7月数据)。此外,Twitter全球每月平均活跃用户达到3.28亿(2017年6月数据)。社交网络以前所未有的规模提供大量信息。由于整个网络的数据量太大,对社交网络的数据进行分析面临着三个巨大的挑战。尽管一些研究人员认为,随着计算能力和数据处理能力的提高,处理集成数据将成为一种趋势,但仍然常需要采样方法处理海量数据得到一个相对较小有代表性的样本,供后期的研究与应用。因此,人们对如何利用图形采样技术从一个大规模的社交网络中获取一个具有代表性的无偏见的数据集进行了大量的关注。
真实社交网络中一些大型的复杂社交网络并不是全连通的,可能包括不连通或者弱连通的组件。MHRW方法假设是社交图的连接很好情况下进行采样,这导致了MHRW方法不适合采样断开或者松散连接的图形。这意味着:有可能走到一个节点,它的度是1,MHRW方法的直觉方法是选取邻居节点,但是这将会产生高度节点的偏见。对于每个源节点,马尔可夫链不够长,无法收敛于目标概率分布。一旦走到这样的节点,就很难再能通过原始的MHRW方法去到其他节点了,这导致取样过程的局部性陷入。因此,此方法存在使采样陷入局部连通子网的情况。如不能跳出局部区域子网的限制,将导致采集样本集具有局部特性无法很好的反映原始网络的特性,并且浪费资源空间。
发明内容
针对上述不足,本发明提供一种基于混合跳转的社交网络采样方法,解决经典MHRW方法在社交网络采样过程中局部性陷入的问题,在网络采样的Geweke诊断收敛性以及采样节点的分布上获得更好的效果。
本发明解决技术问题所采用的技术方案如下:一种基于混合跳转的社交网络采样方法,该方法包括如下步骤:
步骤一:定义概念:
一个OSNs通常被建模为一个具有一组节点的社会图,用户与用户之间的关系作为图的边。在此,把社交网络图定义为一个无定向和未加权的图G=(V,E)。其中,集合V中的每一个顶点v代表了OSNs中的一个用户,节点的总数是|V|=n。而集合E中的每一个边e代表了用户之间的一段友情关系,边缘的总数是|E|=m。可以使用(v,w)来表示在一个复杂的网络的一个边,v,w∈V,w是v的邻居节点,v的邻居节点集表示为V={w|(v,w),而kw代表着节点w的度。Qvw在此定义为度比,即Qvw=kv/kw。S是类似于原始图G的更小的子节点集,这也是采样方法爬行的主要目标。S保留原始网络的主要特征,对实际网络进行预处理,研究等方面具有重要的作用;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江理工大学,未经浙江理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810259230.8/2.html,转载请声明来源钻瓜专利网。