[发明专利]新闻资讯抓取方法、装置、电子设备及存储介质在审
申请号: | 202110432611.3 | 申请日: | 2021-04-21 |
公开(公告)号: | CN113065055A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 郑德生 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/955 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 杨毅玲;刘丽华 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新闻资讯 抓取 方法 装置 电子设备 存储 介质 | ||
1.一种新闻资讯抓取方法,其特征在于,所述方法包括:
解析接收到的目标新闻资讯的抓取请求获取多个种子URL;
为每个所述种子URL创建抓取策略,并根据所述多个种子URL生成目标新闻资讯抓取树,其中,所述目标新闻资讯抓取树的每个抓取节点中包含有对应的抓取策略;
启动主线程逐个读取所述目标新闻资讯抓取树中的每个抓取节点的目标种子URL及对应的抓取策略;
当侦测到所述主线程读取了预设数量的目标种子URL时,启动多个子线程,并将所述主线程读取的所述预设数量的目标种子URL按照预设的分配规则分给所述多个子线程;
控制每个所述子线程使用Puppeteer打开所述主线程读取的每个目标种子URL,并进行抓取处理;
当侦测到所述多个子线程完成抓取处理后,通过所述主线程对所述多个子线程的抓取结果进行统计得到所述目标新闻资讯的目标抓取结果。
2.如权利要求1所述的新闻资讯抓取方法,其特征在于,所述为每个所述种子URL创建抓取策略包括:
分析每个所述种子URL中的页面内容和页面结构得到分析结果;
获取每个所述种子URL对应的抓取需求;
根据每个所述种子URL的分析结果和对应的抓取需求为每个所述种子URL创建抓取策略。
3.如权利要求1所述的新闻资讯抓取方法,其特征在于,所述根据所述多个种子URL生成目标新闻资讯抓取树包括:
将所述多个种子URL中的每个所述种子URL的抓取节点转换为对应的目标新闻资讯抓取树的节点;
将所述多个种子URL中的每个所述种子URL的抓取节点之间的引用关系转换为对应的目标新闻资讯抓取树中节点之间的边,其中,所述目标新闻资讯抓取树中节点之间的边作为所述目标新闻资讯抓取树的节点之间的引用关系;
根据所述目标新闻资讯抓取树的节点和所述目标新闻资讯抓取树中节点之间的边生成目标新闻资讯抓取树。
4.如权利要求1所述的新闻资讯抓取方法,其特征在于,所述控制每个所述子线程使用Puppeteer打开所述主线程读取的每个目标种子URL,并进行抓取处理包括:
使用Puppeteer启动无头浏览器打开所述主线程读取的每个目标种子URL及对应的抓取策略;
跳转至所述目标种子URL对应的目标页面;
按照所述目标种子URL对应的抓取策略调用所述Puppeteer对所述目标页面进行抓取处理。
5.如权利要求1所述的新闻资讯抓取方法,其特征在于,所述方法还包括:
侦测是否有子线程发生异常事件;
当侦测到有子线程发生异常事件时,识别发生异常事件的子线程对应的目标抓取节点;
对所述目标抓取节点中的目标种子URL及对应的目标抓取策略进行校验。
6.如权利要求5所述的新闻资讯抓取方法,其特征在于,所述对所述目标抓取节点中的目标种子URL及对应的目标抓取策略进行校验包括:
将所述目标抓取节点中目标种子URL与所述多个种子URL进行匹配;
当所述目标抓取节点中的目标种子URL与所述多个种子URL中的任意一个种子URL匹配时,判断目标抓取策略是否为所述目标种子URL的抓取策略;
当所述目标抓取策略为所述目标种子URL的抓取策略时,发送抓取建议至客户端;或者
当所述目标抓取策略不为所述目标种子URL的抓取策略时,将所述目标抓取节点中的抓取策略进行修正,根据修正后的抓取策略对所述目标抓取节点中目标种子URL进行二次抓取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110432611.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种烟包拦截装置及方法
- 下一篇:防吸空液控系统及作业机械