[发明专利]一种网页内容自动采集方法有效
申请号: | 201510369634.9 | 申请日: | 2015-06-30 |
公开(公告)号: | CN104933168B | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 沈文凯;瞿伟;刘楼;汪洋 | 申请(专利权)人: | 南京烽火星空通信发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 杨海军 |
地址: | 210019 江苏省南京市建*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 内容 自动 采集 方法 | ||
本发明公开了一种网页内容自动采集方法,包括:根据需要进行内容采集的网页URL查找与该网页所在网站相匹配的采集器集合;当存在相匹配的采集器时,执行采集器,获取网页内容;当不存在相匹配的采集器时,查找未匹配采集器集合,从未匹配采集器集合中选择采集器并执行采集器,获取网页内容;采集成功后,输出网页内容的采集结果;当采集不成功时,重新选择采集器。本发明中的网页自动采集系统框架,支持扩展其它多个网页采集器,极大的提高了系统的可维护性,降低了维护成本与风险,优化了采集系统结构,简化采集处理流程,为大规模采集系统提供了新的高效解决方案。
技术领域
本发明公开了一种网页内容自动采集方法,涉及互联网数据处理技术领域。
背景技术
随着科技的进步,互联网信息进入一个爆炸式、多元式的时代,互联网成为一个巨大的信息库,互联网信息采集可以使您在信息采集、资源整合、资金利用、人力投入等方面节约大量资源,广泛应用于行业门户网站信息采集、竞争对手情报数据搜集、网站内容系统建设、垂直搜索、舆情监测、科研等领域。
以新闻网页为例,常规的新闻网页内容采集程序工作时,依赖于人工提供每个不同新闻站点的页面解析模板,格式定义文件中定义了新闻网页中所有有效数据项的xpath,如新闻标题、正文、作者、发表时间。维护新闻站点页面解析模板是非常枯燥的,而且如果采集程序覆盖的站点越多,工作量越大。而且若新闻站点改版后,原有的页面解析模板文件也就随之‘过期’,需要重新订制,但是往往很难及时发现并重新订制,导致一旦某个新闻站点改版,那么在发现之前,这些新闻站点的数据都将异常甚至丢失。
现有的新闻站点因为格式多样化,数据量爆炸式膨胀,监控严格等,导致收集难度加大,主要表现在:
1、需要人工配置新闻网页解析模板,制定对应信息的xpath。
2、网站的海量信息抓取,规则难以统一制定。一般会针对每个站点单独配置解析模板,工作量大;
3、后继带来了海量的规则维护工作,以及站点改版后规则要实时更新的问题;
4、若不能够及时发现新闻站点改版,那么采集这些新闻站点的数据将会出现异常。
现有常规新闻网页采集都需要通过针对所有站点订制解析模板,所有的订制和后继维护工作繁琐而枯燥,且若不能及时适应站点的改版,导致无法有效采集数据,对于大型的采集系统这些问题尤为突出,急需通过新的技术方法来取代人工的维护工作。
发明内容
本发明所要解决的技术问题是:针对现有技术的缺陷,提供一种网页内容自动采集方法,通过可扩展的方式,支持多种类型的网页通用采集器,每个网页通用采集器都是以不同的算法实现页面通用采集,而算法则是通过网页的共同特征抽象而来。
本发明为解决上述技术问题采用以下技术方案:
一种网页内容自动采集方法,具体步骤包括:
步骤一、根据需要进行内容采集的网页URL查找与该网页所在网站相匹配的采集器集合;
步骤二、当存在相匹配的采集器时,执行采集器,获取网页内容;当不存在相匹配的采集器时,查找未匹配采集器集合,从未匹配采集器集合中选择采集器并执行采集器,获取网页内容;
步骤三、采集成功后,输出网页内容的采集结果;当采集不成功时,返回步骤二,重新选择采集器。
作为本发明的进一步优选方案,所述步骤二中,采集器的识别流程包括:
1、访问目标网页页面,并获取页面字节流;
2、将字节流解析成dom对象,将dom中所有Element对应html标签,记录html标签的所有属性和值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510369634.9/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法