[发明专利]一种网页信息提取方法及系统、电子设备在审
申请号: | 202011095088.1 | 申请日: | 2020-10-14 |
公开(公告)号: | CN111966881A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 何莹瑜;丁明会;许杰;吴桐 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 北京市领专知识产权代理有限公司 11590 | 代理人: | 罗慧 |
地址: | 610015 四川省成都市自由贸易试*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 信息 提取 方法 系统 电子设备 | ||
本发明公开一种网页信息提取方法及系统、电子设备,该方法通过前置预处理过程对目标网页进行处理,获得处理后的目标网页及相应的字段提取规则,生成字段提取规则库,再进一步基于所述字段提取规则库从目标网页中提取对应的字段信息。本发明还公开一种网页信息提取系统,基于本发明公开的方法和系统解决了传统人工定制字段提取规则的效率低下的缺陷,也解决了利用现有开源工具包提取网页信息的正确率低稳定性差等问题,在降低人力成本和资源成本的同时,提高了字段信息提取的准确率和稳定性,因此具有明显的技术优势和技术效果。
技术领域
本发明涉及数据分析领域,特别涉及一种网页信息提取方法及系统、电子设备。
背景技术
在大数据时代,网络爬虫是从互联网上采集数据的有利工具,网络爬虫需要爬取相关的上百上千个站点网页以获得与主题有关的信息,比如标题、时间、来源、内容、作者等内容,而鉴于网页开发技术和样式设计的多样化,传统的解决方案是对每一个站点都要定制化提取代码和提取规则。这种解决方案的优势是字段提取的正确率非常高,但明显的缺点是由于网页样式的多样化,同时该方案严重依赖网页结构的稳定性,网页结构的调整就会导致其提取代码和规则也要做相应调整,因此采用该解决方案不具有通用性,开发成本高且持续性和稳定性较差。
为了提高效率,另一种现有的技术方案是利用第三方开源的爬虫开发包,例如newspaper,newspaper是一个开源的Python类库,可用于网站内容的提取。利用类似newspaper这样的第三方开源类库进行网页内容的提取,虽然能提高效率,但是由于第三方开源库的框架不够稳定,爬取过程中会有各种bug,且正确率偏低,例如获取不到关键的url、字段信息等,因此难以直接商用,另外第三方开源库的默认的功能复杂,不适用于通用的需求,直接使用会有耗费更多的时间,资源占用过高等缺陷。
发明内容
本发明的目的在于克服现有技术中存在的上述不足,提供一种网页信息提取方法及系统,用于解决现有网页信息提取过程中,利用定制提取规则出现的人力成本消耗过大、或者利用第三方开源库出现的提取结果不稳定、系统资源占用过高等技术缺陷。
为达到上述目的,一种网页信息提取方法,通过前置预处理过程对目标网页进行处理,获得处理后的目标网页及相应的字段提取规则,生成字段提取规则库,再进一步基于所述字段提取规则库从目标网页中提取对应的字段信息。本方案采用前置预处理确定字段提取规则,提高了字段提取规则的效率,同时具有较好的适应性和可扩展性,降低了人力成本。
具体的,所述方法包括以下步骤:
步骤S1:接收目标网页,对所述目标网页原文进行前置预处理,获取处理后的目标网页和字段提取规则,进一步生成字段提取规则库;步骤S2:基于所述字段提取规则库,读入处理后的目标网页,获得对应的字段信息;步骤S3:对获取的字段信息进行正确性验证。
进一步的,步骤S1中所述的前置预处理具体包括以下实现步骤:步骤S1-1:对所述目标网页原文进行清洗,去除干扰信息,获得清洗后的目标网页;步骤S1-2:基于清洗后的目标网页建立网页样本,学习所述网页样本,获得字段提取规则。在本方案中,通过前置预处理阶段,对网页原文进行清洗,去除干扰信息,能进一步提高字段信息提取的效率和准确率。
进一步的,所述字段提取规则的格式为正则表达式。
进一步的,所述的干扰信息包括注释、脚本代码、预定义的文本。
所述步骤S1-2中获得字段提取规则的步骤具体包含以下实现步骤:从所述目标网页中随机选取部分网页作为网页样本,根据所述网页样本获取字段信息,验证获得的字段信息的正确性;如果字段信息出错,则获取对应的字段提取规则,并提交修改所述字段提取规则的请求;接收并替换修改后的字段提取规则。本方案通过在正式提取信息之前,先对网页样本进行初步的信息获取和正确性验证,对出现的错误规则进行修改和纠正,可以进一步提高后续目标网站网页字段信息获取的正确性和效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011095088.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置