[发明专利]一种基于多数据源的论文数据爬取方法及系统有效
申请号: | 201910916820.8 | 申请日: | 2019-09-26 |
公开(公告)号: | CN110704713B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 崔佳;张仰森;李超;纪玉春;马欢;缪亚男;侯晋升 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;北京信息科技大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于多数据源的论文数据爬取方法及系统,进行批量关键词论文数据抓取。爬取任务执行前,使用关键词或论文基本信息拼接URL,并将其添加至待抓取队列;执行时,程序分多个子爬取线程,分别从已经经过任务调度算法均衡的多个待爬取队列中取出任务进行源码抓取;执行后,从抓取回的网页源码中解析出所需要的字段,结果存储进数据库中,构建论文数据数据库。相比现有技术,本发明能够提供更高效且全面的论文爬取功能,在服务用户的检索需求时可以快速响应并且将各数据源的查询结果融合展示在用户面前,可以使用户无需对每个数据源的检索结果进行甄别与比对,极大地方便了用户的使用,节约了用户的时间。 | ||
搜索关键词: | 一种 基于 多数 论文 数据 方法 系统 | ||
【主权项】:
1.一种基于多数据源的论文数据爬取取方法,其特征在于包括以下步骤:/nStep1..获取待抓取任务的关键词,将其组织成任务发送到网页源码抓取模块的待抓取关键词队列;/nStep2.将待抓取任务所需的参数替换进各数据源的检索结果页面URL中以完成指定页面URL的替换,并根据不同的数据源将任务分配到对应的待下载任务队列中;/nStep3.使用网页源码下载器从待下载任务队列中取得任务,并进行源码的下载;/nStep4.网页源码收集分类器从源码下载器的完成队列中取出网页源码,并根据网页源码的格式特点将源码分成论文详情页源码和检索结果页源码;/n检索结果源码的后续处理转Step5,论文详情页源码的后续处理转Step7;/nStep5.解析检索结果页面中的论文数据,并组织为任务发送给论文详情页任务调度器;/nStep6.论文详情页任务调度器接收到任务后,使用分配算法将任务均衡地分发到不同的数据源待下载队列,转Step3;/nStep7.针对不同的数据源将论文数据从论文详情页源码中解析出来;/nStep8.将论文数据结果存储进数据库。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;北京信息科技大学,未经国家计算机网络与信息安全管理中心;北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910916820.8/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置