[发明专利]基于顶点团随机步数抽样的社交网络用户获取方法和系统在审
申请号: | 201910208872.X | 申请日: | 2019-03-19 |
公开(公告)号: | CN110060170A | 公开(公告)日: | 2019-07-26 |
发明(设计)人: | 王芳;冯丹;张玲玲 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06Q50/00 | 分类号: | G06Q50/00 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 李智;曹葆青 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抽样 样本点 社交网络用户 顶点团 网络图 步数 样本 数据处理领域 社交网络 等概率 连接子 重复 邻居 | ||
本发明公开了一种基于顶点团随机步数抽样的社交网络用户获取方法和系统,属于大数据处理领域。包括:S0.获取社交网络图,从所述社交网络图中任意选取一个用户顶点作为样本点;S1.获取样本点的团;S2.寻找样本点的团中所有未被抽样过的邻居顶点,生成抽样空间;S3.从抽样空间等概率抽样一个顶点,作为下一个样本点;S4.重复步骤S1~S3,直到抽样所获取的顶点的数量达到需要获取的社交网络用户数量;顶点团是指与该顶点相关的最大的全连接子图。本发明通过团结构来聚集社交网络用户中的相似顶点,抽样空间仅由没有被抽样过的顶点组成,将这些相似顶点排除在抽样空间外,解决了大量重复样本、相似样本的问题,有效的减少抽样的开销。
技术领域
本发明属于大数据处理领域,更具体地,涉及一种基于顶点团随机步数抽样的社交网络用户获取方法。
背景技术
社交网络用图数据结构来描述,社交网络中的用户抽象为顶点,社交网络用户之间的关系抽象为边。由于社交网络上的用户量巨大,社交网络图规模巨大。图抽样是指采用图中的部分数据来估测图的整体特征。因此,在大数据时代,图抽样技术能够为可以用图来描述的应用(如,社交网络图)提供高效的处理方式。
在社交网络中,从一个用户的主页出发,可以很方便获取所有于其有好友关系的主页页面。对应到图结构中,即从一个顶点出发,很容易获取其邻居顶点。基于这种链接关系,最有效的方法是采用随机步数抽样方法获取社交网络的用户,进而通过这些用户类的样本获取社交网络图的用户的邻居顶点的分布特征。该方法的操作过程是:首先随机获取图中的一个样本点,然后根据随机的获取该样本点的邻居顶点作为下一个样本点。不断重复此过程,直到达到抽样过程结束的条件,才终止此操作过程。假设当前的抽样顶点有m个邻居顶点,则每个邻居顶点被选取作为下一个样本点的概率为1/m。而基于随机游走的方法获取社交网络图的顶点的过程可以被当作经典的马尔科夫链的过程:即下一个样本点的选择只与上一个样本点相关,与之前以及后来的样本点选择过程无关。其中下一个样本点的选择概率可以被认为马尔科夫链的从当前状态转移到下一个状态的转移概率。换句话说,基于随机游走的方法获取社交网络图顶点的过程有强大的数学理论支撑,在根据其获取样本点的特征来估测全图的特征时,有成熟的误差纠正模型。因此,目前大多数研究采取基于随机游走的方法来获取社交网络图的顶点类样本。
然而,现有的基于随机步数的抽样方法中的步数机会困于小图或局部的图,导致存在以下问题:1.会获取大量的重复的社交网络用户;2.会获取大量属性相似的社交网络用户;3.抽样的开销的比较大,社交网络用户获取速度慢。
发明内容
针对现有技术的缺陷,本发明的目的在于解决现有技术基于随机步数抽样的社交网络用户获取方法导致获取大量的重复的社交网络用户、属性相似的社交网络用户、获取速度慢的技术问题。
为实现上述目的,第一方面,本发明实施例提供了一种基于顶点团随机步数抽样的社交网络用户获取方法,该方法包括以下步骤:
S0.获取社交网络图,从所述社交网络图中任意选取一个用户顶点作为样本点;
S1.获取该样本点的团;
S2.寻找该样本点的团中所有未被抽样过的邻居顶点,生成抽样空间;
S3.从所述抽样空间等概率抽样一个顶点,作为下一个样本点;
S4.重复步骤S1~S3,直到抽样所获取的顶点的数量达到需要获取的社交网络用户数量;
所述顶点团是指与该顶点相关的最大的全连接子图。
具体地,所述获取社交网络图,具体为:社交网络中的用户抽象为顶点,社交网络用户之间的关系抽象为边。
具体地,步骤S0中,随机选取社交网络用户的ID,通过该ID,随机获取社交网络图中的一个用户顶点。
具体地,被选取的样本点被标记为已抽样。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910208872.X/2.html,转载请声明来源钻瓜专利网。