[发明专利]基于社交关系网络的爬虫方法及装置在审
申请号: | 201910564018.7 | 申请日: | 2019-06-27 |
公开(公告)号: | CN111368162A | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 田伟丽;闫卫杰;余徐勇 | 申请(专利权)人: | 北京关键科技股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06Q50/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 102208 北京市昌平区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 社交 关系 网络 爬虫 方法 装置 | ||
1.一种基于社交关系网络的爬虫方法,用于对选定的门户网站上的选定信息进行采集,其特征在于,所述方法包括:
步骤1)以用户之间的关联关系即社交关系网络作为采集时爬虫的链接;
其中,获取选定用户,通过代理IP访问应用程序编程接口API的方式获取选定用户关联的其他用户,抓取关联的其他用户的用户数据,将获取的其他用户作为新的选定用户重复上述其他用户的获取以及用户数据的抓取操作,以获取选定的门户网站的社交关系网络,并将所述社交关系网络作为采集时爬虫的链接;
其中,社交关系网络由用户信息和用户之间的关注信息构成,用户信息包括用户的ID、登录名、名字和关注度,用户之间的关注信息包括每一个用户关注的用户和关注每一个用户的用户,通过选定用户获取所述社交关系网络;
其中,以社交关系网络作为采集时爬虫的链接包括:对于选定用户,利用选定用户抓取其发布或共享的所有数据,基于选定信息对抓取到的数据进行筛选,再利用筛选后的抓取到的数据作为索引去抓取下一级的数据,对抓取到的下一级的数据再次筛选以再次获取索引以重复下一级的数据的抓取,在获取所有索引后,采用分布式方式通过获取的所有索引执行数据的抓取;
步骤2)基于上述爬虫的链接,通过访问应用程序编程接口API的方式采集社交关系网络中每一个用户发布的数据。
2.如权利要求1所述的基于社交关系网络的爬虫方法,其特征在于:
步骤2)还包括增量爬取数据:基于上述爬虫的链接,通过访问应用程序编程接口API的方式,根据数据的发布时间采集社交关系网络中每一个用户最新发布或更新的数据。
3.如权利要求2所述的基于社交关系网络的爬虫方法,其特征在于:
选定用户为关注度高的用户或人为筛选的用户,在采集之前被存入数据库中,选定用户是一个或多个。
4.如权利要求3所述的基于社交关系网络的爬虫方法,其特征在于:
用分布式方式通过获取的所有索引执行数据的抓取包括:通过索引表将执行数据抓取的不同机器处建立连接,每一台机器从索引表中读取其负责抓取的数据并标记为抓取中,然后执行相应数据的抓取。
5.一种基于社交关系网络的爬虫装置,用于对选定的门户网站上的选定信息进行采集,其特征在于,所述装置包括:
链接建立模块,用于以用户之间的关联关系即社交关系网络作为采集时爬虫的链接;
数据采集模块,基于上述爬虫的链接,通过访问应用程序编程接口API的方式采集社交关系网络中每一个用户发布的数据;
其中,在所述链接建立模块中,获取选定用户,通过代理IP访问应用程序编程接口API的方式获取选定用户关联的其他用户,抓取关联的其他用户的用户数据,将获取的其他用户作为新的选定用户重复上述其他用户的获取以及用户数据的抓取操作,以获取选定的门户网站的社交关系网络,并将所述社交关系网络作为采集时爬虫的链接;
其中,在所述链接建立模块中,社交关系网络由用户信息和用户之间的关注信息构成,用户信息包括用户的ID、登录名、名字和关注度,用户之间的关注信息包括每一个用户关注的用户和关注每一个用户的用户,通过选定用户获取所述社交关系网络;
其中,在所述链接建立模块中,以社交关系网络作为采集时爬虫的链接包括:对于选定用户,利用选定用户抓取其发布或共享的所有数据,基于选定信息对抓取到的数据进行筛选,再利用筛选后的抓取到的数据作为索引去抓取下一级的数据,对抓取到的下一级的数据再次筛选以再次获取索引以重复下一级的数据的抓取,在获取所有索引后,采用分布式方式通过获取的所有索引执行数据的抓取。
6.如权利要求5所述的基于社交关系网络的爬虫装置,其特征在于:
所述数据采集模块还用于增量爬取数据,所述增量爬取数据包括:基于上述爬虫的链接,通过访问应用程序编程接口API的方式,根据数据的发布时间采集社交关系网络中每一个用户最新发布或更新的数据。
7.如权利要求6所述的基于社交关系网络的爬虫装置,其特征在于:
选定用户为关注度高的用户或人为筛选的用户,在采集之前被存入数据库中,选定用户是一个或多个。
8.如权利要求7所述的基于社交关系网络的爬虫装置,其特征在于:
用分布式方式通过获取的所有索引执行数据的抓取包括:通过索引表将执行数据抓取的不同机器处建立连接,每一台机器从索引表中读取其负责抓取的数据并标记为抓取中,然后执行相应数据的抓取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京关键科技股份有限公司,未经北京关键科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910564018.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:项目知识树的构建和检索方法
- 下一篇:一种胎压监测系统的检测装置的检测支架