[发明专利]一种网页信息提取方法及系统、电子设备在审

专利信息
申请号: 202011095088.1 申请日: 2020-10-14
公开(公告)号: CN111966881A 公开(公告)日: 2020-11-20
发明(设计)人: 何莹瑜;丁明会;许杰;吴桐 申请(专利权)人: 成都数联铭品科技有限公司
主分类号: G06F16/951 分类号: G06F16/951
代理公司: 北京市领专知识产权代理有限公司 11590 代理人: 罗慧
地址: 610015 四川省成都市自由贸易试*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 信息 提取 方法 系统 电子设备
【说明书】:

发明公开一种网页信息提取方法及系统、电子设备,该方法通过前置预处理过程对目标网页进行处理,获得处理后的目标网页及相应的字段提取规则,生成字段提取规则库,再进一步基于所述字段提取规则库从目标网页中提取对应的字段信息。本发明还公开一种网页信息提取系统,基于本发明公开的方法和系统解决了传统人工定制字段提取规则的效率低下的缺陷,也解决了利用现有开源工具包提取网页信息的正确率低稳定性差等问题,在降低人力成本和资源成本的同时,提高了字段信息提取的准确率和稳定性,因此具有明显的技术优势和技术效果。

技术领域

本发明涉及数据分析领域,特别涉及一种网页信息提取方法及系统、电子设备。

背景技术

在大数据时代,网络爬虫是从互联网上采集数据的有利工具,网络爬虫需要爬取相关的上百上千个站点网页以获得与主题有关的信息,比如标题、时间、来源、内容、作者等内容,而鉴于网页开发技术和样式设计的多样化,传统的解决方案是对每一个站点都要定制化提取代码和提取规则。这种解决方案的优势是字段提取的正确率非常高,但明显的缺点是由于网页样式的多样化,同时该方案严重依赖网页结构的稳定性,网页结构的调整就会导致其提取代码和规则也要做相应调整,因此采用该解决方案不具有通用性,开发成本高且持续性和稳定性较差。

为了提高效率,另一种现有的技术方案是利用第三方开源的爬虫开发包,例如newspaper,newspaper是一个开源的Python类库,可用于网站内容的提取。利用类似newspaper这样的第三方开源类库进行网页内容的提取,虽然能提高效率,但是由于第三方开源库的框架不够稳定,爬取过程中会有各种bug,且正确率偏低,例如获取不到关键的url、字段信息等,因此难以直接商用,另外第三方开源库的默认的功能复杂,不适用于通用的需求,直接使用会有耗费更多的时间,资源占用过高等缺陷。

发明内容

本发明的目的在于克服现有技术中存在的上述不足,提供一种网页信息提取方法及系统,用于解决现有网页信息提取过程中,利用定制提取规则出现的人力成本消耗过大、或者利用第三方开源库出现的提取结果不稳定、系统资源占用过高等技术缺陷。

为达到上述目的,一种网页信息提取方法,通过前置预处理过程对目标网页进行处理,获得处理后的目标网页及相应的字段提取规则,生成字段提取规则库,再进一步基于所述字段提取规则库从目标网页中提取对应的字段信息。本方案采用前置预处理确定字段提取规则,提高了字段提取规则的效率,同时具有较好的适应性和可扩展性,降低了人力成本。

具体的,所述方法包括以下步骤:

步骤S1:接收目标网页,对所述目标网页原文进行前置预处理,获取处理后的目标网页和字段提取规则,进一步生成字段提取规则库;步骤S2:基于所述字段提取规则库,读入处理后的目标网页,获得对应的字段信息;步骤S3:对获取的字段信息进行正确性验证。

进一步的,步骤S1中所述的前置预处理具体包括以下实现步骤:步骤S1-1:对所述目标网页原文进行清洗,去除干扰信息,获得清洗后的目标网页;步骤S1-2:基于清洗后的目标网页建立网页样本,学习所述网页样本,获得字段提取规则。在本方案中,通过前置预处理阶段,对网页原文进行清洗,去除干扰信息,能进一步提高字段信息提取的效率和准确率。

进一步的,所述字段提取规则的格式为正则表达式。

进一步的,所述的干扰信息包括注释、脚本代码、预定义的文本。

所述步骤S1-2中获得字段提取规则的步骤具体包含以下实现步骤:从所述目标网页中随机选取部分网页作为网页样本,根据所述网页样本获取字段信息,验证获得的字段信息的正确性;如果字段信息出错,则获取对应的字段提取规则,并提交修改所述字段提取规则的请求;接收并替换修改后的字段提取规则。本方案通过在正式提取信息之前,先对网页样本进行初步的信息获取和正确性验证,对出现的错误规则进行修改和纠正,可以进一步提高后续目标网站网页字段信息获取的正确性和效率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011095088.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top