[发明专利]一种搜索框定位方法、数据采集方法、装置及介质在审
申请号: | 201911298961.4 | 申请日: | 2019-12-17 |
公开(公告)号: | CN112988557A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 谷海国 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06F16/951 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;贾允 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 框定 方法 数据 采集 装置 介质 | ||
本申请公开了一种搜索框定位方法、数据采集方法、装置及介质,该搜索框定位方法通过获取目标页面的截屏图像;利用所述截屏图像以及基于模拟操作的结果,从搜索框候选区域中确定目标搜索框区域;根据目标搜索框区域,定位搜索框在目标页面中的位置。从而实现了自动检测任何类型的页面的搜索框,并确定搜索框的定位信息,全程无需人工参与,具有高定位准确率和高召回率,同时可大大降低被反爬虫的风险。
技术领域
本申请涉及计算机技术领域,尤其涉及一种搜索框定位方法、数据采集方法、装置及介质。
背景技术
在数据爬虫业务中,经常会遇到需要先向网页搜索框中输入特定内容进行搜索,再进行数据抓取。而对于不同的网页,搜索框元素(例如id、name、class name等)往往会不相同,因此定位搜索框的位置是个难题。
针对这一情况,现有技术是先建立网站模板库,然后通过程序对新网站进行分析,在模板库中寻找新网站对应类型的模板,最后获取这类模板的搜索框元素。然而预先建立的网站模板库并不能包含所有类型的网站,因此该方法不能覆盖不属于模板库类型的网站,存在应用局限性;此外,通过获取网页中的搜索框元素来进行数据抓取,容易遭到反爬虫对抗。
发明内容
本申请提供了一种搜索框定位方法、数据采集方法、装置及介质,以解决以上至少一种技术问题。
一方面,本申请提供了一种搜索框定位方法,包括:
获取目标页面的截屏图像,所述目标页面为待数据采集的页面;
利用所述截屏图像,在所述目标页面中确定与搜索框的属性信息相匹配的多个搜索框候选区域;
加载模拟操作进程,对每个搜索框候选区域进行模拟操作;
基于模拟操作的结果,从所述多个搜索框候选区域中确定目标搜索框区域;
根据所述目标搜索框区域,定位搜索框在所述目标页面中的位置。
另一方面还提供一种数据采集方法,包括:
获取目标页面和待采集信息,所述目标页面为待数据采集的页面;
确定搜索框在所述目标页面中的位置;
基于所确定的搜索框在所述目标页面中的位置,将所述待采集信息填充至所述搜索框并进行数据采集;
其中,所述确定搜索框在所述目标页面中的位置包括:
获取目标页面的截屏图像,所述目标页面为待数据采集的页面;
利用所述截屏图像,在所述目标页面中确定与搜索框的属性信息相匹配的多个搜索框候选区域;
加载模拟操作进程,对每个搜索框候选区域进行模拟操作;
基于模拟操作的结果,从所述多个搜索框候选区域中确定目标搜索框区域;
根据所述目标搜索框区域,定位搜索框在所述目标页面中的位置。
另一方面还提供一种搜索框定位装置,包括:
截图获取模块,用于获取目标页面的截屏图像;
候选区域确定模块,用于利用所述截屏图像,在所述目标页面中确定与搜索框的属性信息相匹配的多个搜索框候选区域;
模拟操作模块,用于加载模拟操作进程,对每个搜索框候选区域进行模拟操作;
目标区域确定模块,用于基于模拟操作的结果,从所述多个搜索框候选区域中确定目标搜索框区域;
定位模块,用于根据所述目标搜索框区域,定位搜索框在所述目标页面中的位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911298961.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置