[发明专利]一种基于浏览器插件实现网页读写的装置在审

申请号：	202211226042.8	申请日：	2022-10-09
公开（公告）号：	CN115599979A	公开（公告）日：	2023-01-13
发明（设计）人：	韩同;谢涛涛;田雨	申请（专利权）人：	浪潮云信息技术股份公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/955;G06F9/445;G06F9/455
代理公司：	济南信达专利事务所有限公司 37100	代理人：	阚恭勇
地址：	250100 山东省济南市高***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于浏览器插件实现网页读写装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于浏览器插件实现网页读写的装置，属于网路爬虫技术领域，本发明分为三个模块，浏览器插件模块、任务管理模块、数据处理模块。浏览器插件模块为前端模块，安装部署在浏览器上，主要负责对网页数据读取和回写操作。任务管理模块负责网页读、写任务的配置、下发启动和结束等生命流程管理。数据处理模块负责网页数据与数据库表结构格式转换以及数据入库、出库的操作。可有效的避免反爬虫设置。

技术领域

本发明涉及网路爬虫技术领域，尤其涉及一种基于浏览器插件实现网页读写的装置。

背景技术

随着信息化、互联网的大力发展，web服务承载了海量的数据，如何从海量数据中提取所需数据进行分类、归纳、总结、分析成为一个比较关键的问题。

同时各部门在信息化建设过程中完成了一个又一个信息化系统的建设，但是不同程度的都会遇到信息孤岛，系统之间无法打通，数据无法互联互通的问题。

目前一种比较通用的方式是通过网络爬虫来实现数据的获取或者模拟提交上传，但是出于网络安全和web服务稳定性的考虑，互联网服务或者信息化系统建设过程中会进行一系列的反爬加固操作。现在很多网页内容不能直接通过最初的Http请求直接获取，而是在返回的html页面中通过JS加载资源及计算动态生成的页面，同时数据提交的过程中也会涉及到原始数据加工后再提交的问题。

浏览器插件可以拓展浏览器的功能，主要包括：获取网页内容、捕捉http报文、修改浏览器地址栏网址、打开关闭tab页面、与别的站点通信、修改网页内容、模拟人工点击等。

目前主流浏览器chrome、edge、360系列浏览器都开放了插件编辑功能使得开发者能够在浏览器中执行自定义的js代码，通过自定义的js代码可以在页面上获取数据，或者修改网页内容进行提交。

基于浏览器插件读写网页数据可以绕过反爬设置，方便的对网页数据进行读写。

发明内容

为了解决以上技术问题，本发明提供了一种基于浏览器插件实现网页读写的装置。解决了海量数据下精准获取所需数据难度高的问题，该装置可绕过反爬虫设置直接通过对网页的分析或者修改来实现数据的获取和提交。

本发明的技术方案是：

一种基于浏览器实现网页读写的装置，包括浏览器插件模块、任务管理模块、数据处理模块；

浏览器插件模块为前端模块，安装部署在浏览器上，负责对网页数据读取和回写操作；

任务管理模块负责网页读、写任务的配置、下发启动和结束的生命流程管理；

数据处理模块负责网页数据与数据库表结构格式转换以及数据入库、出库的操作。

进一步的，

网页数据读取包括以下步骤：