[发明专利]数据抓取引擎开发方法、执行方法、设备及存储介质有效

专利信息
申请号: 202211365066.1 申请日: 2022-11-03
公开(公告)号: CN115408595B 公开(公告)日: 2023-03-24
发明(设计)人: 郭晓和;王楠;杨孟磊;刘成平;李通 申请(专利权)人: 博和利统计大数据(天津)集团有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/958;G06F16/901;G06F9/50;G06N5/04;G06F8/41
代理公司: 北京维正专利代理有限公司 11508 代理人: 吴英杰
地址: 300000 天津市滨海新区*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 抓取 引擎 开发 方法 执行 设备 存储 介质
【说明书】:

本申请涉及一种数据抓取引擎开发方法、执行方法、设备及存储介质,引擎开发方法包括:获取录制访问样本,录制访问样本包括浏览器操作行为数据和HTTP请求数据;基于黑板系统和HTTP回放技术对录制访问样本进行推导,获取请求访问目标的最优访问推导信息,其中,最优访问推导信息包括最优路径、最优路径的最优参数集和最优参数因果路径;基于最优访问推导信息,构建行为树,生成表征行为树和状态机的DSL文件;通过对DSL文件进行词法、语法分析,识别行为树的节点中待生成代码的目标行为节点,对目标行为节点进行代码生成。本申请可解决开发周期长、请求逻辑分析难、代码编写成本高、性能优化繁琐困难、代码可维护性和复用性差等问题。

技术领域

本申请涉及数据抓取技术领域,尤其是涉及一种数据抓取引擎开发方法、执行方法、设备及存储介质。

背景技术

伴随信息化发展,数据抓取,尤其是垂直数据抓取,作为系统数据集成的重要手段被广泛应用实践。

目前,在软件行业内,对于数据抓取功能的开发实践中,有两类代表性技术。分别是使用特定编程语言(python、java、golang等)以编码方式伪造HTTP协议技术,和以selenium、按键精灵等为代表的委托浏览器(或浏览器内核),模拟点击、选择、录入等人类操作行为事件技术。

其中,伪造HTTP协议技术常以硬编码方式组织数据抓取功能逻辑,开发模型具体划分阶段为:1.通过网络抓包分析,梳理数据抓取的需求访问逻辑;2.根据全局数据抓取访问逻辑及上下文关系,设计和编码程序访问的全局执行逻辑;3.根据局部数据抓取访问逻辑及上下文关系,设计和开发与之对应的硬编码实现,产出具体代码段或执行模块;4.进行单元测试、集成测试、系统测试,确认测试。

但是,该功能逻辑组织模式下存在下述问题:

1.自顶向下的开发周期长,开发成本高;

2.技术入门门槛高。开发者不仅要使用本领域的开发语言技术。还必须对网络抓包、协议分析、Web网络安全机制等有透彻理解;

3.单次抓取过程的性能,严重依赖于访问请求逻辑的分析和认知水平。由于数据抓取的目标系统往往是第三方的,在无法获取相关技术文档的条件下,只能依赖于人工交互结合抓包分析进行梳理,提取核心API和关键路径,并优化非充要请求;

4.访问逻辑分析在整个开发过程中成本高昂,且成果无法复用到其他同类应用中。访问逻辑分析一般针对特定目标系统,目标系统差异导致不具备复用知识的底层逻辑;

5.没有有效手段进行预先测试,难以尽早发现可行性问题和逻辑缺陷;

6.需求变更适应性较差。抓取数据的目标系统访问逻辑无法掌控,由硬编码组织的全局调用执行,使变更改造牵一发动全身;

7.异常排查困难。数据抓取功能业务链往往较深,不光需要依赖详细的日志埋点,还需要结合当前全局执行流程理解和抓取数据目标系统当下访问逻辑的确认;

8.进行性能优化方案,尤其是基于多线程/进程的优化方案时,硬编码方式往往改造困难,也给全局流程理解和日志分析带来困扰;

9.软件复用性低。因为组织流程的硬编码方案,难以套用已有的爬取逻辑流程,或复用相关局部抓取数据模块;

10.实时响应能力弱。系统对抓取数据过程中触发的挂起、暂停、取消、优先级调整等事件缺乏清晰有效的解决方案,给扩展维护带来压力。

浏览器(内核)委托技术的开发模型具体划分阶段如下:1.分析记录人工操作逻辑;2.根据人工操作逻辑,设计和编写委托浏览器操作的相关代码;3. 单元测试、集成测试、系统测试,确认测试。

该功能逻辑组织模式下,虽然逻辑梳理简单,开发过程自然直接,提高开发效率和成本,但依然存在以下性能问题:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于博和利统计大数据(天津)集团有限公司,未经博和利统计大数据(天津)集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211365066.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top