[发明专利]一种基于浏览器插件实现网页读写的装置在审
申请号: | 202211226042.8 | 申请日: | 2022-10-09 |
公开(公告)号: | CN115599979A | 公开(公告)日: | 2023-01-13 |
发明(设计)人: | 韩同;谢涛涛;田雨 | 申请(专利权)人: | 浪潮云信息技术股份公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F9/445;G06F9/455 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 阚恭勇 |
地址: | 250100 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 浏览器 插件 实现 网页 读写 装置 | ||
本发明提供一种基于浏览器插件实现网页读写的装置,属于网路爬虫技术领域,本发明分为三个模块,浏览器插件模块、任务管理模块、数据处理模块。浏览器插件模块为前端模块,安装部署在浏览器上,主要负责对网页数据读取和回写操作。任务管理模块负责网页读、写任务的配置、下发启动和结束等生命流程管理。数据处理模块负责网页数据与数据库表结构格式转换以及数据入库、出库的操作。可有效的避免反爬虫设置。
技术领域
本发明涉及网路爬虫技术领域,尤其涉及一种基于浏览器插件实现网页读写的装置。
背景技术
随着信息化、互联网的大力发展,web服务承载了海量的数据,如何从海量数据中提取所需数据进行分类、归纳、总结、分析成为一个比较关键的问题。
同时各部门在信息化建设过程中完成了一个又一个信息化系统的建设,但是不同程度的都会遇到信息孤岛,系统之间无法打通,数据无法互联互通的问题。
目前一种比较通用的方式是通过网络爬虫来实现数据的获取或者模拟提交上传,但是出于网络安全和web服务稳定性的考虑,互联网服务或者信息化系统建设过程中会进行一系列的反爬加固操作。现在很多网页内容不能直接通过最初的Http请求直接获取,而是在返回的html页面中通过JS加载资源及计算动态生成的页面,同时数据提交的过程中也会涉及到原始数据加工后再提交的问题。
浏览器插件可以拓展浏览器的功能,主要包括:获取网页内容、捕捉http报文、修改浏览器地址栏网址、打开关闭tab页面、与别的站点通信、修改网页内容、模拟人工点击等。
目前主流浏览器chrome、edge、360系列浏览器都开放了插件编辑功能使得开发者能够在浏览器中执行自定义的js代码,通过自定义的js代码可以在页面上获取数据,或者修改网页内容进行提交。
基于浏览器插件读写网页数据可以绕过反爬设置,方便的对网页数据进行读写。
发明内容
为了解决以上技术问题,本发明提供了一种基于浏览器插件实现网页读写的装置。解决了海量数据下精准获取所需数据难度高的问题,该装置可绕过反爬虫设置直接通过对网页的分析或者修改来实现数据的获取和提交。
本发明的技术方案是:
一种基于浏览器实现网页读写的装置,包括浏览器插件模块、任务管理模块、数据处理模块;
浏览器插件模块为前端模块,安装部署在浏览器上,负责对网页数据读取和回写操作;
任务管理模块负责网页读、写任务的配置、下发启动和结束的生命流程管理;
数据处理模块负责网页数据与数据库表结构格式转换以及数据入库、出库的操作。
进一步的,
网页数据读取包括以下步骤:
S1插件安装,间隔五秒发送心跳至任务管理模块。
S2插件轮询等待任务下发启动。
S3任务管理模块配置读任务,配置内容为web页面的url,配置网页解析模板,勾选插件终端,下发任务。
S4插件接收到读任务,打开url,加载web页面,页面加载完毕后,插件根据解析模板对网页进行解析,解析成json数据。
S5插件将解析后的json数据上传至数据处理模块。
S6数据处理模块接收到json数据后根据网页元素与数据库表对应关系及转换规则进行转换,然后数据入库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮云信息技术股份公司,未经浪潮云信息技术股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211226042.8/2.html,转载请声明来源钻瓜专利网。