[发明专利]一种基于多数据源的论文数据爬取方法及系统有效

专利信息
申请号: 201910916820.8 申请日: 2019-09-26
公开(公告)号: CN110704713B 公开(公告)日: 2022-02-08
发明(设计)人: 崔佳;张仰森;李超;纪玉春;马欢;缪亚男;侯晋升 申请(专利权)人: 国家计算机网络与信息安全管理中心;北京信息科技大学
主分类号: G06F16/951 分类号: G06F16/951;G06F16/955
代理公司: 北京科亿知识产权代理事务所(普通合伙) 11350 代理人: 汤东凤
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种基于多数据源的论文数据爬取方法及系统,进行批量关键词论文数据抓取。爬取任务执行前,使用关键词或论文基本信息拼接URL,并将其添加至待抓取队列;执行时,程序分多个子爬取线程,分别从已经经过任务调度算法均衡的多个待爬取队列中取出任务进行源码抓取;执行后,从抓取回的网页源码中解析出所需要的字段,结果存储进数据库中,构建论文数据数据库。相比现有技术,本发明能够提供更高效且全面的论文爬取功能,在服务用户的检索需求时可以快速响应并且将各数据源的查询结果融合展示在用户面前,可以使用户无需对每个数据源的检索结果进行甄别与比对,极大地方便了用户的使用,节约了用户的时间。
搜索关键词: 一种 基于 多数 论文 数据 方法 系统
【主权项】:
1.一种基于多数据源的论文数据爬取取方法,其特征在于包括以下步骤:/nStep1..获取待抓取任务的关键词,将其组织成任务发送到网页源码抓取模块的待抓取关键词队列;/nStep2.将待抓取任务所需的参数替换进各数据源的检索结果页面URL中以完成指定页面URL的替换,并根据不同的数据源将任务分配到对应的待下载任务队列中;/nStep3.使用网页源码下载器从待下载任务队列中取得任务,并进行源码的下载;/nStep4.网页源码收集分类器从源码下载器的完成队列中取出网页源码,并根据网页源码的格式特点将源码分成论文详情页源码和检索结果页源码;/n检索结果源码的后续处理转Step5,论文详情页源码的后续处理转Step7;/nStep5.解析检索结果页面中的论文数据,并组织为任务发送给论文详情页任务调度器;/nStep6.论文详情页任务调度器接收到任务后,使用分配算法将任务均衡地分发到不同的数据源待下载队列,转Step3;/nStep7.针对不同的数据源将论文数据从论文详情页源码中解析出来;/nStep8.将论文数据结果存储进数据库。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京信息科技大学,未经国家计算机网络与信息安全管理中心;北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910916820.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code