[发明专利]一种基于谷歌浏览器插件的网页数据获取方法及系统在审

申请号：	201910583979.2	申请日：	2019-07-01
公开（公告）号：	CN110276041A	公开（公告）日：	2019-09-24
发明（设计）人：	姜敬超;徐宏伟;单震;宋设;杨照通	申请（专利权）人：	浪潮卓数大数据产业发展有限公司
主分类号：	G06F16/958	分类号：	G06F16/958;G06F3/0485;G06F9/445
代理公司：	济南信达专利事务所有限公司 37100	代理人：	姜明
地址：	214029 江苏省无锡市滨***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	浏览器插件网页数据网页互联网数据网站识别文本数据页面操作自动翻页自动获取爬虫数据处理插件滑块链接文本概率配置保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于谷歌浏览器插件的网页数据获取方法及系统，属于互联网数据获取技术领域。本发明的基于谷歌浏览器插件的网页数据获取方法包括以下步骤：S1、编写谷歌浏览器插件；S2、在编写的谷歌浏览器插件中填写对应的配置保证插件正常运行；S3、自动获取链接；S4、获取网页数据；S5、自动翻页；S6、自动拖滑块；S7、页面操作；S8、数据处理：从网页或文本中获取需要的数据，对网页或文本数据进行格式或处理。该发明的基于谷歌浏览器插件的网页数据获取方法能够降低被网站识别为爬虫的概率，具有很好的推广应用价值。

技术领域

本发明涉及互联网数据获取技术领域，具体提供一种基于谷歌浏览器插件的网页数据获取方法及系统。

背景技术

随着社会的不断发展，社会经济发展，同时社会各项技术水平有了很大的提高。互联网发展迅速，网络成为大量信息的载体，但是不同领域、不同背景的用户对于数据的需求是不一样的，我们如果想从海量数据中获取自己需要的数据就需要借助于网络爬虫，但是互联网数据的实际拥有者(网站管理人员)又会想办法甄别网络爬虫，保护自己的数据或者网站，一场数据爬取与反爬的大战就此拉开。

同时某些网站有严格的反爬策略，部分数据必须要用户登录才可见，持续访问还会出现滑块验证码等验证手段，普通的数据爬取方式已经很难获取到想要的数据，需要有针对性的定制化的数据获取方法。

浏览器插件，可以大大的扩展你的浏览器的功能。浏览器插件包括但不仅限于这些功能：捕捉特定网页的内容，捕捉HTTP报文，捕捉用户浏览动作，改变浏览器地址栏/起始页/书签/Tab等界面元素的行为，与别的站点通信，修改网页内容等。

谷歌浏览器开放了插件编辑功能使得开发者能够在谷歌浏览器中执行自定义的js代码，通过自定义的js代码可以在页面上获取想要的数据，执行需要的浏览器操作。

Chrome的插件开发起来最简单，总体上看没什么新的技术，开发语言就是javascript，只需要明白谷歌浏览器开放的插件api即可开发。

发明内容

本发明的技术任务是针对上述存在的问题，提供一种通过模拟用户正常访问网站的方式自动化的获取网站数据，实现自动翻页、自动拖滑块、设置时间间隔等功能，降低被网站识别为爬虫的概率的基于谷歌浏览器插件的网页数据获取方法。

本发明进一步的技术任务是提供一种基于谷歌浏览器插件的网页数据获取系统。

为实现上述目的，本发明提供了如下技术方案：

一种基于谷歌浏览器插件的网页数据获取方法，该方法包括以下步骤：

S1、编写谷歌浏览器插件；

S2、在编写的谷歌浏览器插件中填写对应的配置保证插件正常运行；

S3、自动获取链接；