[发明专利]一种基于谷歌浏览器插件的网页数据获取方法及系统在审
申请号: | 201910583979.2 | 申请日: | 2019-07-01 |
公开(公告)号: | CN110276041A | 公开(公告)日: | 2019-09-24 |
发明(设计)人: | 姜敬超;徐宏伟;单震;宋设;杨照通 | 申请(专利权)人: | 浪潮卓数大数据产业发展有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F3/0485;G06F9/445 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 214029 江苏省无锡市滨*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 浏览器插件 网页数据 网页 互联网数据 网站识别 文本数据 页面操作 自动翻页 自动获取 爬虫 数据处理 插件 滑块 链接 文本 概率 配置 保证 | ||
本发明公开了一种基于谷歌浏览器插件的网页数据获取方法及系统,属于互联网数据获取技术领域。本发明的基于谷歌浏览器插件的网页数据获取方法包括以下步骤:S1、编写谷歌浏览器插件;S2、在编写的谷歌浏览器插件中填写对应的配置保证插件正常运行;S3、自动获取链接;S4、获取网页数据;S5、自动翻页;S6、自动拖滑块;S7、页面操作;S8、数据处理:从网页或文本中获取需要的数据,对网页或文本数据进行格式或处理。该发明的基于谷歌浏览器插件的网页数据获取方法能够降低被网站识别为爬虫的概率,具有很好的推广应用价值。
技术领域
本发明涉及互联网数据获取技术领域,具体提供一种基于谷歌浏览器插件的网页数据获取方法及系统。
背景技术
随着社会的不断发展,社会经济发展,同时社会各项技术水平有了很大的提高。互联网发展迅速,网络成为大量信息的载体,但是不同领域、不同背景的用户对于数据的需求是不一样的,我们如果想从海量数据中获取自己需要的数据就需要借助于网络爬虫,但是互联网数据的实际拥有者(网站管理人员)又会想办法甄别网络爬虫,保护自己的数据或者网站,一场数据爬取与反爬的大战就此拉开。
同时某些网站有严格的反爬策略,部分数据必须要用户登录才可见,持续访问还会出现滑块验证码等验证手段,普通的数据爬取方式已经很难获取到想要的数据,需要有针对性的定制化的数据获取方法。
浏览器插件,可以大大的扩展你的浏览器的功能。浏览器插件包括但不仅限于这些功能:捕捉特定网页的内容,捕捉HTTP报文,捕捉用户浏览动作,改变浏览器地址栏/起始页/书签/Tab等界面元素的行为,与别的站点通信,修改网页内容等。
谷歌浏览器开放了插件编辑功能使得开发者能够在谷歌浏览器中执行自定义的js代码,通过自定义的js代码可以在页面上获取想要的数据,执行需要的浏览器操作。
Chrome的插件开发起来最简单,总体上看没什么新的技术,开发语言就是javascript,只需要明白谷歌浏览器开放的插件api即可开发。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种通过模拟用户正常访问网站的方式自动化的获取网站数据,实现自动翻页、自动拖滑块、设置时间间隔等功能,降低被网站识别为爬虫的概率的基于谷歌浏览器插件的网页数据获取方法。
本发明进一步的技术任务是提供一种基于谷歌浏览器插件的网页数据获取系统。
为实现上述目的,本发明提供了如下技术方案:
一种基于谷歌浏览器插件的网页数据获取方法,该方法包括以下步骤:
S1、编写谷歌浏览器插件;
S2、在编写的谷歌浏览器插件中填写对应的配置保证插件正常运行;
S3、自动获取链接;
S4、获取网页数据:首先判断网页是否加载完成,加载完成后获取加载后的网页数据;
S5、自动翻页:在js中获取网页元素,模拟点击翻页按钮执行翻页操作;
S6、自动拖滑块:获取验证码滑块的位置,模拟鼠标事件拖动滑块;
S7、页面操作:在配置文件中写入参数,使用插件时页面配置从配置文件获取,打开页面根据需要选择详情页、列表页点击保存,刷新页面;
S8、数据处理:从网页或文本中获取需要的数据,对网页或文本数据进行格式或处理。
步骤S3通过执行get请求通过rest服务从redis中获取链接,实现自动获取链接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮卓数大数据产业发展有限公司,未经浪潮卓数大数据产业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910583979.2/2.html,转载请声明来源钻瓜专利网。