[发明专利]一种数据智能爬取方法有效
申请号: | 202010028320.3 | 申请日: | 2020-01-10 |
公开(公告)号: | CN111222028B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 罗博文;钟莉;黄云;董晓尚;张豪;沈停;杨建 | 申请(专利权)人: | 四川日报社 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F40/289 |
代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 邓波 |
地址: | 610000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 智能 方法 | ||
本发明公开了一种数据智能爬取方法,本发明包括数据整合阶段、数据筛选阶段和数据推送阶段,数据整合阶段为获取数据并对数据进行标签分类的阶段,即在各个目标数据源中获取文章,并对获取的文章进行标签标注,得到标签信息,便于后续根据标签信息对文章进行筛选;数据筛选阶段则是根据用户输入的文章筛选请求,在内容数据库中筛选出符合要求的文章,而数据推送阶段,则是将数据筛选阶段得到的文章推送至筛选请求发送端,实现文章的快速筛选推送。通过上述设计,使得文章数据的筛选非常的快速便捷,不需要用户一一登录各种在线平台,阅读每篇文章,才能达到文章统计收集的功能,不仅大大的提高了文章收集的效率,还减少了工作人员的工作量。
技术领域
本发明涉及数据爬取技术领域,具体涉及一种数据智能爬取方法。
背景技术
随着社会的不断发展,当前社会已经进入大数据时代,信息的种类、来源也越来越多样化。报纸作为人类信息获取的重要来源之一,其信息的收集也变得越来越重要。
目前,对于文章数据的收集,报社的工作人员需要自行登陆各个网站、网页、客户端等在线平台,一一阅读每个在线平台发布的文章,筛选出自己所需的文章,然后进行下载并统计。这种传统的数据收集方法不仅效率慢,还大大的增加了工作人员的工作量,已经不能满足报社文章数据进行快速统计、更新的需求。
发明内容
为了解决现有的报社文章数据收集采用人工所导致的效率慢、工作量大的问题,本发明的目的在于提供一种能够自动爬取各个在线平台所发布的文章,并按照输入的需求对文章进行筛选,快速得到对应的文章,并进行推送,达到文章快速收集功能的数据智能爬取方法。
本发明所采用的技术方案为:
一种数据智能爬取方法,包括数据整合阶段、数据筛选阶段和数据推送阶段;
所述数据整合阶段包括以下步骤:
S101.确定多个目标数据源,并得到每个目标数据源对应的数据源信息,然后将所述目标数据源存储至数据源数据库;
S102.访问所述数据源数据库中的所有目标数据源,获取目标数据源中的全部文章,并提取每篇文章中的多个字段,得到字段组,然后将文章存储至内容数据库;
S103.访问所述内容数据库中的每篇文章,根据所述数据源信息和每篇文章对应的字段组对文章进行标签标注,得到每篇文章对应的标签信息;
所述数据筛选阶段包括以下步骤:
S201.接收文章筛选请求,其中,所述文章筛选请求包括查找关键词组;
S202.将所述查找关键词组与所述标签信息进行数据匹配,匹配完成后,得到目标标签信息以及目标标签信息对应的文章,将目标标签信息对应的文章定义为目标文章;
S203.将查找关键词组分别与每篇目标文章的全文进行数据匹配,匹配完成后,将符合预设要求的目标文章作为推送文章;
所述数据推送阶段包括以下步骤:
S301.将所述推送文章发送至文章筛选请求发送端,完成文章的筛选推送。
优化的,所述数据源信息包括数据源名称、数据源地址、数据源来源地理位置、数据源所属机构、数据源所属种类和数据源类型。
优化的,所述步骤S102中的字段组包括:当前文章的标题字段、正文字段、发布时间字段、作者字段、发布机构字段和地理位置字段。
优化的,在提取所述地理位置字段时,具体包括以下步骤:
S102a.提取文章全文出现的地名,并统计每个地名出现的频率;
S103b.计算每个地名对应的权重,根据每个地名出现的频率,计算得到每个地名的总权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川日报社,未经四川日报社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010028320.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置