[发明专利]一种解决JS加密问题的爬虫方法在审
申请号: | 202010820940.0 | 申请日: | 2020-08-14 |
公开(公告)号: | CN111949851A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 孙健;赵书武;胡健龙;王彩洪 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F21/60 |
代理公司: | 北京正华智诚专利代理事务所(普通合伙) 11870 | 代理人: | 李林合 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种解决JS加密问题的爬虫方法,包括以下步骤:S1:创建scrapy项目,并设定允许爬取的域名范围、请求头信息和初始URL;S2:通过调用selenium框架的webdriver工具获取cookie;S3:根据初始URL和cookie,调用内部start_requests()爬取列表页;S4:解析列表页并管理列表页的URL,完成页面爬取。本发明使用的是聚焦网络爬虫。本发明中先将要爬取的内容通过搜索引擎筛选出来,然后爬取筛选出来的页面内容,可爬取JS加密的页面,同时可获取网页重定向之后的链接。 | ||
搜索关键词: | 一种 解决 js 加密 问题 爬虫 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010820940.0/,转载请声明来源钻瓜专利网。