[发明专利]数据抓取引擎开发方法、执行方法、设备及存储介质有效
申请号: | 202211365066.1 | 申请日: | 2022-11-03 |
公开(公告)号: | CN115408595B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 郭晓和;王楠;杨孟磊;刘成平;李通 | 申请(专利权)人: | 博和利统计大数据(天津)集团有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958;G06F16/901;G06F9/50;G06N5/04;G06F8/41 |
代理公司: | 北京维正专利代理有限公司 11508 | 代理人: | 吴英杰 |
地址: | 300000 天津市滨海新区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 抓取 引擎 开发 方法 执行 设备 存储 介质 | ||
本申请涉及一种数据抓取引擎开发方法、执行方法、设备及存储介质,引擎开发方法包括:获取录制访问样本,录制访问样本包括浏览器操作行为数据和HTTP请求数据;基于黑板系统和HTTP回放技术对录制访问样本进行推导,获取请求访问目标的最优访问推导信息,其中,最优访问推导信息包括最优路径、最优路径的最优参数集和最优参数因果路径;基于最优访问推导信息,构建行为树,生成表征行为树和状态机的DSL文件;通过对DSL文件进行词法、语法分析,识别行为树的节点中待生成代码的目标行为节点,对目标行为节点进行代码生成。本申请可解决开发周期长、请求逻辑分析难、代码编写成本高、性能优化繁琐困难、代码可维护性和复用性差等问题。
技术领域
本申请涉及数据抓取技术领域,尤其是涉及一种数据抓取引擎开发方法、执行方法、设备及存储介质。
背景技术
伴随信息化发展,数据抓取,尤其是垂直数据抓取,作为系统数据集成的重要手段被广泛应用实践。
目前,在软件行业内,对于数据抓取功能的开发实践中,有两类代表性技术。分别是使用特定编程语言(python、java、golang等)以编码方式伪造HTTP协议技术,和以selenium、按键精灵等为代表的委托浏览器(或浏览器内核),模拟点击、选择、录入等人类操作行为事件技术。
其中,伪造HTTP协议技术常以硬编码方式组织数据抓取功能逻辑,开发模型具体划分阶段为:1.通过网络抓包分析,梳理数据抓取的需求访问逻辑;2.根据全局数据抓取访问逻辑及上下文关系,设计和编码程序访问的全局执行逻辑;3.根据局部数据抓取访问逻辑及上下文关系,设计和开发与之对应的硬编码实现,产出具体代码段或执行模块;4.进行单元测试、集成测试、系统测试,确认测试。
但是,该功能逻辑组织模式下存在下述问题:
1.自顶向下的开发周期长,开发成本高;
2.技术入门门槛高。开发者不仅要使用本领域的开发语言技术。还必须对网络抓包、协议分析、Web网络安全机制等有透彻理解;
3.单次抓取过程的性能,严重依赖于访问请求逻辑的分析和认知水平。由于数据抓取的目标系统往往是第三方的,在无法获取相关技术文档的条件下,只能依赖于人工交互结合抓包分析进行梳理,提取核心API和关键路径,并优化非充要请求;
4.访问逻辑分析在整个开发过程中成本高昂,且成果无法复用到其他同类应用中。访问逻辑分析一般针对特定目标系统,目标系统差异导致不具备复用知识的底层逻辑;
5.没有有效手段进行预先测试,难以尽早发现可行性问题和逻辑缺陷;
6.需求变更适应性较差。抓取数据的目标系统访问逻辑无法掌控,由硬编码组织的全局调用执行,使变更改造牵一发动全身;
7.异常排查困难。数据抓取功能业务链往往较深,不光需要依赖详细的日志埋点,还需要结合当前全局执行流程理解和抓取数据目标系统当下访问逻辑的确认;
8.进行性能优化方案,尤其是基于多线程/进程的优化方案时,硬编码方式往往改造困难,也给全局流程理解和日志分析带来困扰;
9.软件复用性低。因为组织流程的硬编码方案,难以套用已有的爬取逻辑流程,或复用相关局部抓取数据模块;
10.实时响应能力弱。系统对抓取数据过程中触发的挂起、暂停、取消、优先级调整等事件缺乏清晰有效的解决方案,给扩展维护带来压力。
浏览器(内核)委托技术的开发模型具体划分阶段如下:1.分析记录人工操作逻辑;2.根据人工操作逻辑,设计和编写委托浏览器操作的相关代码;3. 单元测试、集成测试、系统测试,确认测试。
该功能逻辑组织模式下,虽然逻辑梳理简单,开发过程自然直接,提高开发效率和成本,但依然存在以下性能问题:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于博和利统计大数据(天津)集团有限公司,未经博和利统计大数据(天津)集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211365066.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置