[发明专利]一种基于URL规则匹配的网页采集任务自动化分拣方法在审
申请号: | 202010770485.8 | 申请日: | 2020-08-04 |
公开(公告)号: | CN111859207A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 王勇 | 申请(专利权)人: | 浪潮卓数大数据产业发展有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F9/50;G06F9/54;H04L29/08 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 冯春连 |
地址: | 214029 江苏省无锡市滨*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 url 规则 匹配 网页 采集 任务 自动化 分拣 方法 | ||
1.一种基于URL规则匹配的网页采集任务自动化分拣方法,其特征在于,该方法包括1)匹配规则配置,2)任务调度编排,3)分层主题模型构建三个阶段;
1)匹配规则配置阶段:
在采集任务中制定网页采集任务url模式匹配正则规则,根据任务所属的阶段配置待下载正则规则、解析正则规则和内容提取正则规则;
2)任务调度编排阶段:
待执行任务主题消费者从消费者主题中拉取待执行任务主题,根据调度分发队列进行任务的拆包并放置于待调度处理的任务队列中,规则匹配节点依次从任务队列中获取任务包,根据任务包的url地址模式与规则匹配节点匹配后进行转发,下载、解析和抽取规则作为任务调度分拣器,与kafka主题实现一对一生产连接,完成匹配后的任务调用生产者接口写入主题域中;
3)分层主题模型构建阶段:
根据匹配的url地址设定下载主题、解析主题、内容提取主题三个层级,并基于任务的调度和处理解析构建分层主题模型,再基于分层主题模型配置下载、解析、内容提取三方面的自动化分拣策略。
2.根据权利要求1所述的一种基于URL规则匹配的网页采集任务自动化分拣方法,其特征在于,执行上述三个阶段过程中,还可以设定采集任务周期配置时间,启动后的采集任务发送到redis中相应网站任务队列中,任务调度节点从任务队列中拉取采集任务进行切分解析后,将任务写入kafka下载主题中,采集节点下载器从kafka中获取任务下载链接根据任务网站入口url进行链接下载,下载成功后的任务。
3.根据权利要求1所述的一种基于URL规则匹配的网页采集任务自动化分拣方法,其特征在于,在匹配规则配置阶段,根据任务所属的阶段配置待下载正则规则时,使用正则表达式设置所匹配任务队列中的待下载链接的url,下载正则规则以任务入口url地址链接为规则匹配模式,根据入口url链接制定通用下载规则正则。
4.根据权利要求3所述的一种基于URL规则匹配的网页采集任务自动化分拣方法,其特征在于,在匹配规则配置阶段,根据任务所属的阶段配置解析正则规则时,作为匹配网页中多个翻页url链接的规则,对网页下载完成后的url链接进行匹配,解析正则规则匹配后生成的url链接,不直接进入任务的采集,直接去重作为下一个任务的入口url,将url作为key,请求配置参数作为value,进入待执行任务分配主题,url模式规则对获取的缓存队列中的url进行规则匹配处理后,重新进入对应处理主题,需要二次下载的链接分配给下载主题,需要二次解析的链接分配给解析主题,同步后再次利用节点进程进行消费处理。
5.根据权利要求4所述的一种基于URL规则匹配的网页采集任务自动化分拣方法,其特征在于,在匹配规则配置阶段,根据任务所属的阶段配置内容提取正则规则时,需要二次内容提取的链接分配给内容提取主题,同步后再次利用节点进程进行消费处理。
6.根据权利要求1所述的一种基于URL规则匹配的网页采集任务自动化分拣方法,其特征在于,在任务调度编排阶段,根据调度分发队列进行任务的拆包后,根据所要采集的网页解析url地址转换解析,将url地址与已执行任务url链接进行比对,对于重复的url链接进行去重处理,去重处理后的链接进入待调度处理的任务队列中。
7.根据权利要求6所述的一种基于URL规则匹配的网页采集任务自动化分拣方法,其特征在于,根据任务包的url地址模式与规则匹配节点进行匹配的过程中,对于匹配异常的url链接则保存到异常任务列表中,后续再次解析人工处理。
8.根据权利要求1所述的一种基于URL规则匹配的网页采集任务自动化分拣方法,其特征在于,基于任务的调度和处理解析构建分层主题模型,这一过程中,
a1)围绕kafka主题/分区模式,根据采集任务生命周期的变化,创建从任务启动后的待执行主题,待执行主题包括链接下载主题、链接解析主题和内容提取主题,
a2)从采集任务的待执行主题,执行下载、数据解析和内容提取的分层,
a3)采用redis实现在处理过程中的任务清洗、任务顺序调度分发管理和规则匹配,
循环执行a1)-a3),进行任务的下载进程、解析进程、内容提取进程处理,从而完成网页采集任务的自动化分拣。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮卓数大数据产业发展有限公司,未经浪潮卓数大数据产业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010770485.8/1.html,转载请声明来源钻瓜专利网。