[发明专利]一种网络数据采集方法、装置、计算机设备及存储介质在审

专利信息
申请号: 202110169027.3 申请日: 2021-02-07
公开(公告)号: CN112818201A 公开(公告)日: 2021-05-18
发明(设计)人: 龚剑;徐桢虎;唐弋松;占钦 申请(专利权)人: 四川封面传媒有限责任公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/958
代理公司: 成都顶峰专利事务所(普通合伙) 51224 代理人: 杨国瑞
地址: 610000 四川省成都*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网络 数据 采集 方法 装置 计算机 设备 存储 介质
【说明书】:

发明涉及计算机网络技术领域,公开了一种网络数据采集方法、装置、计算机设备及存储介质。通过本发明创造,提供了一种基于模拟用户行为工具Se l n ium的网络数据采集方案,即可以在获取待执行抓取任务后,应用模拟用户行为工具Se l n ium依次执行排序的抓取任务,然后解析抓取的网页内容,得到可存放的结构化数据,从而可通过模拟真实用户行为绕过目标服务器的用户行为检测,拿到真实的数据,不但可以提升采集效率和质量,降低维护成本,还可以很好的隐藏自身的行为,具有很强的隐蔽性,而且不用详细分析网页接口与页面渲染,具有高便利性和通用性。

技术领域

本发明属于计算机网络技术领域,具体地涉及一种网络数据采集方法、装置、计算机设备及存储介质。

背景技术

随着计算机网络技术的不断发展,网上信息的获取已经成为人们认识事件的主要途径之一,面对每时每刻都会产生得大量网络信息资源,人们往往会陷入窘迫的境地,一方面收到的海量信息无从选择和消化,使得其淹没在繁杂的信息中,另一方面是信息迷失,人们难于找到自己真正需要的信息;因此,如何能够快速高效地采集和抓取网络站点是现如今人们对于获取网络信息的迫切需求。

在采集和抓取网络站点的数据时,会发现很多网站数据需要通过登录验证才可以展示页面内容,或者是需要在整个页面的DOM(Document Object Mode,文档对象模型)结构加载完之后才会执行。如果使用常规的网络爬虫方法直接获取页面内容,则无法获取到需要的数据内容,这大大降低了网络数据采集的效率和质量。而如果需要获取到登录验证的数据或者网页加载完毕展示的数据,就需要对网站的请求的数据源地址进行分析或者记录下网站的登录验证cookie,而这种方法会导致爬虫的时效性降低,需要持续地获取网络爬虫的登录密钥,增加了网络数据采集的维护成本。

发明内容

为了解决现有网络数据采集方法所存在需要检测用户行为及需要用户登陆等,导致采集效率低、质量差和维护成本高的问题,本发明目的在于提供一种网络数据采集方法、装置、计算机设备及存储介质,可以在获取待执行抓取任务后,应用模拟用户行为工具Selnium依次执行排序的抓取任务,然后解析抓取的网页内容,得到可存放的结构化数据,从而可通过模拟真实用户行为绕过目标服务器的用户行为检测,拿到真实的数据,不但可以提升采集效率和质量,降低维护成本,还可以很好的隐藏自身的行为,具有很强的隐蔽性,而且不用详细分析网页接口与页面渲染,具有高便利性和通用性。

第一方面,本发明提供了一种网络数据采集方法,包括:

访问用于存放抓取任务的第一数据库,获取至少一个待执行抓取任务,其中,所述抓取任务包含有待爬取统一资源定位符URL地址;

将所述至少一个待执行抓取任务添加到当前任务队列中,得到新任务队列,其中,所述新任务队列包含有按照执行先后顺序依次排列的至少一个待执行抓取任务;

应用模拟用户行为工具Selnium依次执行在所述新任务队列中的各个待执行抓取任务,以便通过所述模拟用户行为工具Selnium模拟用户使用浏览器和对应任务的所述待爬取统一资源定位符URL地址进行网页访问,并下载获取网页内容;

解析所述网页内容,获取至少一个解析数据;

根据所述至少一个解析数据,获取至少一个结构化数据;

将所述至少一个结构化数据存放到第二数据库中。

基于上述发明内容,提供了一种基于模拟用户行为工具Selnium的网络数据采集方案,即可以在获取待执行抓取任务后,应用模拟用户行为工具Selnium依次执行排序的抓取任务,然后解析抓取的网页内容,得到可存放的结构化数据,从而可通过模拟真实用户行为绕过目标服务器的用户行为检测,拿到真实的数据,不但可以提升采集效率和质量,降低维护成本,还可以很好的隐藏自身的行为,具有很强的隐蔽性,而且不用详细分析网页接口与页面渲染,具有高便利性和通用性。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川封面传媒有限责任公司,未经四川封面传媒有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110169027.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top