[发明专利]基于社交关系网络的爬虫方法及装置在审
申请号: | 201910564018.7 | 申请日: | 2019-06-27 |
公开(公告)号: | CN111368162A | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 田伟丽;闫卫杰;余徐勇 | 申请(专利权)人: | 北京关键科技股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06Q50/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 102208 北京市昌平区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 社交 关系 网络 爬虫 方法 装置 | ||
本发明涉及一种基于社交关系网络的爬虫方法,包括:步骤1)以用户之间的关联关系即社交关系网络作为采集时爬虫的链接;步骤2)基于上述爬虫的链接,通过访问应用程序编程接口API的方式采集社交关系网络中每一个用户发布的数据;步骤2)还包括增量爬取数据:基于上述爬虫的链接,通过访问应用程序编程接口API的方式,根据数据的发布时间采集社交关系网络中每一个用户最新发布或更新的数据。本发明还涉及一种基于社交关系网络的爬虫装置。通过本发明,能够基于用户之间的相互关注的关系,获取社交关系网络,在社交关系网络的基础上进行逐层的深入抓取,达到全量数据爬取,同时还解决了增量式网络爬虫爬行算法的复杂度和实现难度。
技术领域
本发明涉及网络爬虫领域,尤其涉及一种基于社交关系网络的爬虫方法及装置。
背景技术
随着移动互联网的普及,同时随着人们的需求日益增加,网络信息呈指数增长,人们认识到了信息的重要性,而在当下这个网络时代,信息的网络化使得人们对于信息的收集和使用变得更加便捷,但是如何有效地提取和利用这些信息面临巨大挑战。在这样的背景下,诞生了网络爬虫技术。
随着科技的快速发展,各行各业的发展都离不开数据的支撑。由于不同的人群,不同的领域所需要的数据不同且网络信息更新快,为了满足一些选定人群对选定领域数据的需求,应对网络信息更新快的特点,网络爬虫需要定期去抓取选定网站的数据,因此诞生了聚焦网络爬虫和增量式网络爬虫。聚焦网络爬虫又称主题网络爬虫,它的主要特点是有选择性的抓取与主题相关的网页信息。增量式网络爬虫的主要特点是根据已经获取到的数据去抓取新产生或已更新的网页信息。
聚焦网络爬虫的关键是有选择性的抓取与某一选定主题内容相关的网页。由于网络数据量大,大部分门户网站不会显示全部的数据信息,通过关键词搜索引擎对每个关键词的搜索结果展示1000条数据,导致无法获取全量数据。增量式网络爬虫的主要特点是抓取新产生或已更新的网页,有效减少数据下载量,但是增加了爬行算法的复杂度和实现难度。
经过研究发现,目前几乎所有的门户网站都需要用户注册才能发布信息,通过搜索用户可以查看用户所发布的所有信息和近期更新的数据,且用户与用户之间形成了社交关系网络。因此,为了尽可能多的抓取数据,保证数据的实时性,人们设计了基于社交关系网络的爬虫,针对选定门户网站通过网络爬虫访问API的方式采集数据。
发明内容
为了解决上述问题,本发明提供了一种基于社交关系网络的爬虫方法及装置,能够解决抓取数据、更新数据过程中存在的一系列问题,实现通过社交关系网络全量抓取选定门户网站的数据、增量获取选定门户网站的数据、采用代理IP和构造url的方式解决网站API的请求次数限制和返回结果大小的限制。
根据本发明的一方面,提供了一种基于社交关系网络的爬虫方法,用于对选定的门户网站上的选定信息进行采集,所述方法包括:
步骤1)以用户之间的关联关系即社交关系网络作为采集时爬虫的链接;
其中,获取选定用户,通过代理IP访问应用程序编程接口API的方式获取选定用户关联的其他用户,抓取关联的其他用户的用户数据,将获取的其他用户作为新的选定用户重复上述其他用户的获取以及用户数据的抓取操作,以获取选定的门户网站的社交关系网络,并将所述社交关系网络作为采集时爬虫的链接;
其中,社交关系网络由用户信息和用户之间的关注信息构成,用户信息包括用户的ID、登录名、名字和关注度,用户之间的关注信息包括每一个用户关注的用户和关注每一个用户的用户,通过选定用户获取所述社交关系网络;
其中,以社交关系网络作为采集时爬虫的链接包括:对于选定用户,利用选定用户抓取其发布或共享的所有数据,基于选定信息对抓取到的数据进行筛选,再利用筛选后的抓取到的数据作为索引去抓取下一级的数据,对抓取到的下一级的数据再次筛选以再次获取索引以重复下一级的数据的抓取,在获取所有索引后,采用分布式方式通过获取的所有索引执行数据的抓取;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京关键科技股份有限公司,未经北京关键科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910564018.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:项目知识树的构建和检索方法
- 下一篇:一种胎压监测系统的检测装置的检测支架