[发明专利]一种基于特定话题下的社交网络数据获取方法在审
申请号: | 202211412608.6 | 申请日: | 2022-11-11 |
公开(公告)号: | CN115687798A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 欧圣波;杨博;李致;徐彦婷;王海洋;隋明爽;董一凡;初杰 | 申请(专利权)人: | 烟台中科网络技术研究所;国家计算机网络与信息安全管理中心;国家计算机网络与信息安全管理中心上海分中心 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/901;G06Q50/00 |
代理公司: | 烟台上禾知识产权代理事务所(普通合伙) 37234 | 代理人: | 赵加鑫 |
地址: | 264000 山东省烟台*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特定 话题 社交 网络 数据 获取 方法 | ||
1.一种基于特定话题下的社交网络数据获取方法,其特征在于,它包括如下步骤:
S1、根据目标用户自定义待关注的特定话题,生成特定话题下的社交关系判定请求,根据社交关系判定请求对每个目标用户在特定话题下的社交关系进行关联分析,获得目标用户在特定话题下的社交网络数据;
S2、根据所述社交网络数据构建对应的基于特定话题的社交网络无向图;在所述社交网络无向图中,节点表示在该社交网络中的每个用户,边表示每两个相邻用户之间存在的社交行为关系;
S3、将所有用户的社交网络无向图进行连接,合成社交网络全信息无向图;
S4、根据所述社交网络全信息无向图判定相邻两个用户之间的社交关系,将目标用户发布的社交信息用二元组进行表示;将相邻两个用户之间的关系用三元组进行表示;
S5、对S4中所述的二元组和三元组进行无量纲化处理;获得目标用户发布社交信息的总次数和相邻两用户进行社交行为的总次数;
S6、根据相邻两用户之间的社交关系分别预设不同社交行为的权重,根据不同社交行为的权重以及目标用户发布社交信息的总次数和相邻两用户进行社交行为的总次数计算两个用户之间的社交关联度;
S7、根据关联用户的要素计算获得关联用户的影响力,根据影响力设立采集规则,采集关联用户针对特定话题的社交网络数据,并统计追踪热度;当采集的总数据量达到预设数量时,停止采集。
2.根据权利要求1所述的一种基于特定话题下的社交网络数据获取方法,其特征在于,在S1中,所述目标用户在特定话题下的社交网络数据包括但不限于用户ID、用户名、用户简介、用户链接页面、关注数和/或粉丝数。
3.根据权利要求2所述的一种基于特定话题下的社交网络数据获取方法,其特征在于,在S2中,所述社交网络无向图的构建基于获取目标用户在该特定话题下的社交行为次数以及与该社交行为关联的用户ID。
4.根据权利要求2所述的一种基于特定话题下的社交网络数据获取方法,其特征在于,在S4中,所述目标用户发布社交信息用二元组进行表示:目标用户ID,发布社交信息的次数;所述目标用户与关联用户的关系用三元组进行表示:目标用户ID,关联用户ID,两用户之间的社交行为的次数。
5.根据权利要求1所述的一种基于特定话题下的社交网络数据获取方法,其特征在于,在S5中,所述目标用户发布社交信息的次数的具体获取方式包括如下步骤:
S51、预设时间周期和时间间隔,根据时间间隔将时间周期平均分成M个时间区间;
S52、根据目标用户在不同的时间区间内发布的社交信息的次数,将目标用户发布社交信息的时间映射到对应的时间区间内,从而获得目标用户在整个时间周期内发布社交信息的总次数。
6.根据权利要求1所述的一种基于特定话题下的社交网络数据获取方法,其特征在于,在S5中,所述相邻两用户进行社交行为的次数的具体获取方式包括如下步骤:
S53、预设时间周期和时间间隔,根据时间间隔将时间周期平均分成M个时间区间;
S54、根据目标用户被关联用户在不同的时间区间内进行社交行为的次数,将目标用户被关联用户在不同的时间区间内进行社交行为的时间映射到对应的时间区间内,从而获得目标用户在整个时间周期内被关联用户进行社交行为的总次数;
S55、将目标用户发布社交信息的总次数和目标用户被关联用户进行社交行为的总次数进行无量纲处理。
7.根据权利要求1所述的一种基于特定话题下的社交网络数据获取方法,其特征在于,在S7中,所述关联用户的要素包括活跃度、传播力和话题参与度。
8.根据权利要求1所述的一种基于特定话题下的社交网络数据获取方法,其特征在于,在S7中,所述统计追踪热度具体包括如下步骤:
S71、设立采集周期步长,评估一个采集周期内当前关联用户的活跃度;
计算一个采集周期内当前关联用户的传播力;设立自适应重访规则,根据当前关联用户的影响力计算对当前关联用户再次采集的重访时间间隔,根据所述重访时间间隔得到每个关联用户的下次采集时间;
S72、采集关联用户针对特定话题的社交网络数据,并根据重访时间间隔确定每个关联用户的下次采集时间和剩余采集次数,从而统计出未来时间段内需要采集的关联用户数量,即追踪热度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于烟台中科网络技术研究所;国家计算机网络与信息安全管理中心;国家计算机网络与信息安全管理中心上海分中心,未经烟台中科网络技术研究所;国家计算机网络与信息安全管理中心;国家计算机网络与信息安全管理中心上海分中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211412608.6/1.html,转载请声明来源钻瓜专利网。