[发明专利]一种网络数据爬取方法和装置有效

申请号：	201611243880.0	申请日：	2016-12-29
公开（公告）号：	CN106844522B	公开（公告）日：	2019-11-22
发明（设计）人：	孙建通;李智;徐辉	申请（专利权）人：	北京天元创新科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951
代理公司：	11002 北京路浩知识产权代理有限公司	代理人：	李相雨<国际申请>=<国际公布>=<进入
地址：	100193 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明实施例提供了一种网络数据爬取方法和装置，所述方法包括：通过网页测试工具打开浏览器，并打开待爬取数据的网站；根据预先设置的目标数据网页结构，通过所述网页测试工具模拟用户浏览所述网站，获取所述网站上目标数据标签对应的所有网页的页面信息；分别对获取到的所述页面信息进行分析，根据所述目标数据标签获取对应的目标数据。所述装置用于执行上述方法。本发明实施例通过控制浏览器对待爬取数据的网站进行浏览，并采用网页测试工具即selenium模拟用户浏览网站，可以很好的避免因网站反爬机制造成数据爬取失败的问题，提高了网络数据爬取的成功率。
搜索关键词：	一种网络数据方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种网络数据爬取方法，其特征在于，包括：/n通过网页测试工具打开浏览器，并打开待爬取数据的网站；/n根据预先设置的目标数据网页结构，通过所述网页测试工具模拟用户浏览所述网站，获取所述网站上目标数据标签对应的所有网页的页面信息；其中，所述目标数据网页结构为各类数据标签之间的层级关系；/n分别对获取到的所述页面信息进行分析，根据所述目标数据标签获取对应的目标数据；/n其中，所述通过所述网页测试工具模拟用户浏览所述网站，包括：/n通过所述网页测试工具模拟点击页面跳转按钮、模拟页面下拉条的滚动和模拟栏目的点击操作，实现模拟用户浏览所述网站；/n所述获取所述网站上目标数据标签对应的所有网页的页面信息，包括：/n根据所述目标数据网页结构，打开对应的网页，获取所述目标数据标签对应的所有网页的页面信息，若判断获知所述网页不是所述目标数据标签对应的最后一页网页，则模拟所述点击页面跳转按钮，点击下一页，获取下一页网页的页面信息。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京天元创新科技有限公司，未经北京天元创新科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201611243880.0/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种网络数据爬取方法和装置有效

专利文献下载