[发明专利]新闻资讯抓取方法、装置、电子设备及存储介质在审
申请号: | 202110432611.3 | 申请日: | 2021-04-21 |
公开(公告)号: | CN113065055A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 郑德生 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/955 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 杨毅玲;刘丽华 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新闻资讯 抓取 方法 装置 电子设备 存储 介质 | ||
本发明涉及大数据技术领域,提供一种新闻资讯抓取方法、装置、电子设备及存储介质,所述方法包括:获取多个种子URL生成目标新闻资讯抓取树;启动主线程读取目标新闻资讯抓取树中每个抓取节点的目标种子URL及对应的抓取策略;在读取了预设数量的目标种子URL时,启动多个子线程,将预设数量的目标种子URL分给多个子线程;控制每个子线程使用Puppeteer打开每个目标种子URL进行抓取处理;通过主线程对多个子线程的抓取结果进行统计得到目标新闻资讯的目标抓取结果。本发明通过使用Puppeteer启动无头浏览器打开每个目标种子URL,并启动多个子线程进行抓取处理,减少了真实浏览器的渲染工作,提高了目标新闻资讯的抓取效率。
技术领域
本发明涉及大数据技术领域,具体涉及一种新闻资讯抓取方法、装置、电子设备及存储介质。
背景技术
传统的新闻资讯抓取,是通过爬虫程序获取到网站的URL所对应的http请求,并解析http请求返回的结果,但目前大部分新闻资讯网页,是使用ajax来获取资讯内容,通过Javascript来实现页面内容的渲染,传统的爬虫无法抓取有效数据,或者只能抓取部分有效数据,此外,还有一些程序通过打开浏览器,并通过DOM元素的位置来抓取新闻资讯内容。
然而,由于这些程序必须运行在可视化的操作系统上,没办法运行在linux服务器上,导致抓取的新闻资讯的效率和准确率低下。
因此,有必要提供一种快速准确的新闻资讯抓取的方法。
发明内容
鉴于以上内容,有必要提出一种新闻资讯抓取方法、装置、电子设备及存储介质,通过使用Puppeteer启动无头浏览器打开每个目标种子URL,并启动多个子线程进行抓取处理,减少了真实浏览器的渲染工作,提高了目标新闻资讯的抓取效率。
本发明的第一方面提供一种新闻资讯抓取方法,所述方法包括:
解析接收到的目标新闻资讯的抓取请求获取多个种子URL;
为每个所述种子URL创建抓取策略,并根据所述多个种子URL生成目标新闻资讯抓取树,其中,所述目标新闻资讯抓取树的每个抓取节点中包含有对应的抓取策略;
启动主线程逐个读取所述目标新闻资讯抓取树中的每个抓取节点的目标种子URL及对应的抓取策略;
当侦测到所述主线程读取了预设数量的目标种子URL时,启动多个子线程,并将所述主线程读取的所述预设数量的目标种子URL按照预设的分配规则分给所述多个子线程;
控制每个所述子线程使用Puppeteer打开所述主线程读取的每个目标种子URL,并进行抓取处理;
当侦测到所述多个子线程完成抓取处理后,通过所述主线程对所述多个子线程的抓取结果进行统计得到所述目标新闻资讯的目标抓取结果。
可选地,所述为每个所述种子URL创建抓取策略包括:
分析每个所述种子URL中的页面内容和页面结构得到分析结果;
获取每个所述种子URL对应的抓取需求;
根据每个所述种子URL的分析结果和对应的抓取需求为每个所述种子URL创建抓取策略。
可选地,所述根据所述多个种子URL生成目标新闻资讯抓取树包括:
将所述多个种子URL中的每个所述种子URL的抓取节点转换为对应的目标新闻资讯抓取树的节点;
将所述多个种子URL中的每个所述种子URL的抓取节点之间的引用关系转换为对应的目标新闻资讯抓取树中节点之间的边,其中,所述目标新闻资讯抓取树中节点之间的边作为所述目标新闻资讯抓取树的节点之间的引用关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110432611.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种烟包拦截装置及方法
- 下一篇:防吸空液控系统及作业机械