[发明专利]一种爬虫模拟登陆采集的方法在审

专利信息
申请号: 201410196086.X 申请日: 2014-05-12
公开(公告)号: CN103984719A 公开(公告)日: 2014-08-13
发明(设计)人: 程瑶 申请(专利权)人: 浪潮电子信息产业股份有限公司
主分类号: G06F17/30 分类号: G06F17/30;H04L9/32
代理公司: 暂无信息 代理人: 暂无信息
地址: 250101 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种爬虫模拟登陆采集的方法,其具体实现过程为:设置采集请求模块、身份认证模块、采集下载模块,其中采集请求模块实现对待采集页面发送采集请求;身份认证模块实现待采集网站自动化登录认证;采集下载模块实现对待采集页面进行采集。该一种爬虫模拟登陆采集的方法和现有技术相比,可以实现采集需要用户认证后才能采集的网页;解决了需要用户认证才能进行访问的页面采集问题,提高了网络采集的全面性,实用性强,易于推广。 
搜索关键词: 一种 爬虫 模拟 登陆 采集 方法
【主权项】:
一种爬虫模拟登陆采集的方法,其特征在于其具体实现过程为:一、首先设置采集请求模块、身份认证模块、采集下载模块,其中采集请求模块实现对待采集页面发送采集请求;身份认证模块实现待采集网站自动化登录认证;采集下载模块实现对待采集页面进行采集;二、通过浏览器自带的网络监听工具监听网络数据包,查看用户登录过程发送的POST包;三、身份认证模块实现对步骤二中POST包内容再现,发送到待采集网页;四、身份认证模块实现对待采集网站服务器返回值的记录;五、采集请求模块把步骤四中返回的相关记录值和采集请求做集成处理;六、采集请求模块发送对待采集页面的采集请求;七、采集下载模块实现对待采集页面的采集;八、如果不需要模拟登录采集,只需要进行步骤五和六。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410196086.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top