[发明专利]一种基于特定话题下的社交网络数据获取方法在审
申请号: | 202211412608.6 | 申请日: | 2022-11-11 |
公开(公告)号: | CN115687798A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 欧圣波;杨博;李致;徐彦婷;王海洋;隋明爽;董一凡;初杰 | 申请(专利权)人: | 烟台中科网络技术研究所;国家计算机网络与信息安全管理中心;国家计算机网络与信息安全管理中心上海分中心 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/901;G06Q50/00 |
代理公司: | 烟台上禾知识产权代理事务所(普通合伙) 37234 | 代理人: | 赵加鑫 |
地址: | 264000 山东省烟台*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特定 话题 社交 网络 数据 获取 方法 | ||
一种基于特定话题下的社交网络数据获取方法,涉及网络信息采集领域,本发明针对现有的社交网络获取方法采集结果不准确、效率低、获取数据不完整、考虑维度不全面的缺陷,提供了一种社交网络数据获取方法:对目标用户在特定话题下的社交关系进行关联分析,获得社交网络数据;构建并合成社交网络全信息无向图;获得目标用户发布社交信息的总次数和相邻两用户进行社交行为的总次数;预设不同社交行为的权重,计算两个用户之间的社交关联度;获得关联用户的影响力,采集关联用户针对特定话题的社交网络数据,并统计追踪热度;当采集的总数据量达到预设数量时,停止采集。用于获取特定话题下的社交网络数据。
技术领域
本发明涉及网络信息采集领域,尤其涉及一种基于特定话题下的社交网络数据获取方法。
背景技术
随着移动互联网的快速发展,社交网络平台具有越来越丰富的功能和属性,以微信、微博为代表的社交网络平台日活跃用户数均在上亿规模。对社交网络数据进行深入研究,挖掘用户关系、社群研究、舆情监控和用户推荐等方面越来越成为学术界和产业界关注的焦点。
挖掘社交网络平台中的用户关系,提取潜在价值信息能够使社交网络平台产生重要的商业和社会效益。一般来说,社交网络上亿级的用户规模让用户研究很难精准到每一个人,从用户网络中挖掘出重点关注某个特定话题下的有代表性的关键用户或关键群体,并对他们进行分析和研究是进行用户分析研究的重要手段。但社交网络的用户数据在分析前需要进行采集、预处理和存储,以得到高质量的用户数据用于以上问题的分析。
我国专利申请号:CN202210381972.4,公开日:2022.05.10,公开了社交网络数据采集方法、装置及储存介质,S1获取初始社交网络用户,S2构建候选集合,S3预处理候选集合得到第一集合,S4计算每个社区加入其每个邻居社区时的收益度,并其加入邻居社区,S5判断社区的社区归属是否发生变化,若变化返回S4,反之进S6,S6选取监控节点,S7采集监控节点的信息,S8进行爬取任务,获取指定数据,S9解析指定数据获得目标数据并存放至数据库;能够在海量的社交网络用户节点中选择出社交网络传播信息的监控节点,实时感知社交网络中正在传播的舆情。克服现有“滚雪球”收据收集方法片面同质的问题,克服“关键字”收集方法无法实时感知网络舆情,只能事后分析的局限性。
但上述专利在实现对大规模社交网络环境下对关联用户社交网络的获取过程中,发现上述技术至少存在如下技术问题:已有的社交网络数据获取方法或因为较少考虑用户综合信息、社交网络拓扑结构等,或仅适用于特定小规模场景,导致了采集结果不准确、效率不高,在大规模社交网络环境下对关联用户社交网络数据的获取不完整,计算过程中未全面考虑用户在社交平台上的多维度参数,且未考虑采集时间间隔,在数据量过少时容易造成服务器资源浪费,在数据量过多时容易造成缓存溢出,甚至产生数据丢失的后果。
发明内容
本发明的目的是为了解决现有的社交网络获取方法采集结果不准确、效率低、获取数据不完整、考虑维度不全面的缺陷,提供了一种采集结果准确、效率高、数据获取完整、考虑维度全面的基于特定话题下的社交网络数据获取方法。
本发明所述的一种基于特定话题下的社交网络数据获取方法,它包括如下步骤:
S1、根据目标用户自定义待关注的特定话题,生成特定话题下的社交关系判定请求,根据社交关系判定请求对每个目标用户在特定话题下的社交关系进行关联分析,获得目标用户在特定话题下的社交网络数据;
S2、根据所述社交网络数据构建对应的基于特定话题的社交网络无向图;在所述社交网络无向图中,节点表示在该社交网络中的每个用户,边表示每两个相邻用户之间存在的社交行为关系;
S3、将所有用户的社交网络无向图进行连接,合成社交网络全信息无向图;
S4、根据所述社交网络全信息无向图判定相邻两个用户之间的社交关系,将目标用户发布的社交信息用二元组进行表示;将相邻两个用户之间的关系用三元组进行表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于烟台中科网络技术研究所;国家计算机网络与信息安全管理中心;国家计算机网络与信息安全管理中心上海分中心,未经烟台中科网络技术研究所;国家计算机网络与信息安全管理中心;国家计算机网络与信息安全管理中心上海分中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211412608.6/2.html,转载请声明来源钻瓜专利网。