[发明专利]一种基于动态内容解析的交互式信息采集方法及系统在审
申请号: | 202011260845.6 | 申请日: | 2020-11-12 |
公开(公告)号: | CN112364226A | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 杨忠军;李建 | 申请(专利权)人: | 江苏易启策网络科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958 |
代理公司: | 北京盛凡智荣知识产权代理有限公司 11616 | 代理人: | 朱学绘 |
地址: | 210000 江苏省南京市秦淮区永丰大道*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 内容 解析 交互式 信息 采集 方法 系统 | ||
本发明公开了一种基于动态内容解析的交互式信息采集方法,包括如下步骤:设定采集目标网站和规则:用户通过系统录入需要采集的目标网站,系统针对的是特定领域的信息采集,需要明确采集的范围、起始条件、终止条件和采集间隔;动态内容解析采集和录入:用户通过动态内容解析采集插件对目标网站的内容进行动态解析。本发明增加了动态内容解析,可以更好的对爬取的内容进行结构化,提高了数据的利用率,增加了交互式的数据采集方式,可以更好的应对需要用户授权的场景,提高了数据采集的范围,优化了数据采集的并发方式,可以更高效的完成高并发情况下的数据采集,提高了数据采集的效率。
技术领域
本发明涉及信息采集技术领域,尤其涉及一种基于动态内容解析的交互式信息采集方法及系统。
背景技术
网络信息采集是一种用于采集互联网的信息工具,目前的技术主要是采用静态的、机械式的、无交互的信息采集方法,该方法只能用于公开的、简单的、无反爬措施的信息的收集,因此收集到的信息普遍简单化、价值低、无用率高,无法满足特定场景下对于高价值数据的要求。
缺陷:(1)传统架构的信息采集只能做通用的文本爬取,无法动态的针对内容进行解析;
(2)传统架构的信息采集只能做无交互式的文本爬取,无法应对复杂的逻辑和环境;
(3)传统架构的信息采集的并发采用软件模拟,性能有限,无法应对超大数据量和极高并发的场景。
发明内容
基于背景技术存在的技术问题,本发明提出了一种基于动态内容解析的交互式信息采集方法及系统。
本发明提出的一种基于动态内容解析的交互式信息采集方法,包括如下步骤:
S1设定采集目标网站和规则:用户通过系统录入需要采集的目标网站,系统针对的是特定领域的信息采集,需要明确采集的范围、起始条件、终止条件和采集间隔;
S2动态内容解析采集和录入:用户通过动态内容解析采集插件对目标网站的内容进行动态解析,设定解析的字段和对应的规则,通过字段和规则将原本非结构化、纯文本的网页内容转换为结构化的字段和内容,完成对网页的动态解析;
S3启动分布式异步信息采集中心调度:完成上述准备工作后,用户在平台上创建数据采集的任务,并设定采集的具体参数,设定完成之后,会由调度中心对任务进行调度,调度过程完全自动化、可视化;
S4采用多终端采集设备进行特定信息的采集:调度中心会将具体的任务分配到不同的采集设备上进行采集,采集设备会提供采集时必要的信息,包含位置、网络、身份、MAC地址等一些信息,提供采集程序需要的基础信息;
S5交互式信息接入和使用:如果采集任务过程中需要用到交互式的信息,平台会将需要的认证信息,通过SDK、H5或API的方式发送给用户,并由用户提交授权信息到平台中心进行认证,平台中心会根据不同任务的不同认证方式从系统的任务链上选择具体的模块执行;
S6内容解析并存储:完成授权信息认证之后,采集设备会使用动态解析脚本针对动态的网页内容进行解析,并将解析内容存储推送到存储中心。
一种基于动态内容解析的交互式信息采集系统,包括目标确定模块、内容解析模块、任务调度模块、信息采集模块、信息交互模块和解析存储模块,所述目标确定模块、内容解析模块、任务调度模块、信息采集模块、信息交互模块和解析存储模块依次连接。
优选的,所述目标确定模块:通过系统录入需要采集的目标网站,系统针对的是特定领域的信息采集,明确采集的范围、起始条件、终止条件和采集间隔。
优选的,所述内容解析模块:用户通过动态内容解析采集插件对目标网站的内容进行动态解析,设定解析的字段和对应的规则,通过字段和规则将原本非结构化、纯文本的网页内容转换为结构化的字段和内容,完成对网页的动态解析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏易启策网络科技有限公司,未经江苏易启策网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011260845.6/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法