[发明专利]一种基于多数据源的论文数据爬取方法及系统有效

申请号：	201910916820.8	申请日：	2019-09-26
公开（公告）号：	CN110704713B	公开（公告）日：	2022-02-08
发明（设计）人：	崔佳;张仰森;李超;纪玉春;马欢;缪亚男;侯晋升	申请（专利权）人：	国家计算机网络与信息安全管理中心;北京信息科技大学
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/955
代理公司：	北京科亿知识产权代理事务所(普通合伙) 11350	代理人：	汤东凤
地址：	100029***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开一种基于多数据源的论文数据爬取方法及系统，进行批量关键词论文数据抓取。爬取任务执行前，使用关键词或论文基本信息拼接URL，并将其添加至待抓取队列；执行时，程序分多个子爬取线程，分别从已经经过任务调度算法均衡的多个待爬取队列中取出任务进行源码抓取；执行后，从抓取回的网页源码中解析出所需要的字段，结果存储进数据库中，构建论文数据数据库。相比现有技术，本发明能够提供更高效且全面的论文爬取功能，在服务用户的检索需求时可以快速响应并且将各数据源的查询结果融合展示在用户面前，可以使用户无需对每个数据源的检索结果进行甄别与比对，极大地方便了用户的使用，节约了用户的时间。
搜索关键词：	一种基于多数论文数据方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于多数据源的论文数据爬取取方法，其特征在于包括以下步骤：/nStep1..获取待抓取任务的关键词，将其组织成任务发送到网页源码抓取模块的待抓取关键词队列；/nStep2.将待抓取任务所需的参数替换进各数据源的检索结果页面URL中以完成指定页面URL的替换，并根据不同的数据源将任务分配到对应的待下载任务队列中；/nStep3.使用网页源码下载器从待下载任务队列中取得任务，并进行源码的下载；/nStep4.网页源码收集分类器从源码下载器的完成队列中取出网页源码，并根据网页源码的格式特点将源码分成论文详情页源码和检索结果页源码；/n检索结果源码的后续处理转Step5，论文详情页源码的后续处理转Step7；/nStep5.解析检索结果页面中的论文数据，并组织为任务发送给论文详情页任务调度器；/nStep6.论文详情页任务调度器接收到任务后，使用分配算法将任务均衡地分发到不同的数据源待下载队列，转Step3；/nStep7.针对不同的数据源将论文数据从论文详情页源码中解析出来；/nStep8.将论文数据结果存储进数据库。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京信息科技大学，未经国家计算机网络与信息安全管理中心;北京信息科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910916820.8/，转载请声明来源钻瓜专利网。

上一篇：基于图像检索的场景图片拍摄位置范围识别方法及系统
下一篇：pcap文件的快速数据索引方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多数据源的论文数据爬取方法及系统有效

专利文献下载