[发明专利]基于启发式规则的网页内容的抽取方法与系统在审

申请号：	202011036871.0	申请日：	2020-09-28
公开（公告）号：	CN112149022A	公开（公告）日：	2020-12-29
发明（设计）人：	周威;王大伟	申请（专利权）人：	深圳壹账通智能科技有限公司
主分类号：	G06F16/957	分类号：	G06F16/957;G06F16/958;G06K9/62;G06F16/35
代理公司：	北京英特普罗知识产权代理有限公司 11015	代理人：	邓小玲
地址：	518000 广东省深圳市前海深港合作区前***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于启发式规则网页内容抽取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于启发式规则的网页内容的抽取方法与系统，所述方法包括：接收待提取网页内容的目标网址，根据所述目标网址获取所述目标网址对应的目标网页源码；基于预设的启发式规则对所述目标网页源码进行抽取，得到网页正文源码；遍历所述网页正文源码，以得到目标标签以及所述目标标签对应的标签内容；根据所述目标标签对应的标签属性，将所述目标标签内容存储到数据表格中，并发送给前端进行视图展示。本发明可以快速高效的进行网页抽取，且通用性强。

技术领域

本发明实施例涉及网页处理领域，尤其涉及一种基于启发式规则的网页内容的抽取方法与系统。

背景技术

目前，随着互联网的飞速发展，网络信息资源呈指数级增长趋势，网页中汇聚了人物简历、企业信息、知识产权、商品信息等各行业、各领域的海量有价值数据，对于知识发现、信息检索、数据挖掘等应用能提供很大的帮助。如何更加便捷、准确地分析页面、提取有价值的数据，已成为重要研究问题。

现有的网站内容抽取主要分为两类：第一类是新闻类型网站，新闻类型网站网页一般包含标题、时间、作者、大段文本描述；针对新闻类型网站网页，已有方法工具通过计算网页文本的密度就可以对这些内容完成抽取；第二类是一些格式复杂的网站，例如一个购物网站的产品详情页、个人简历页面、企业信息页面，格式复杂的网站网页页面，随着类型不同，页面内容也不尽相同；针对格式复杂的网站，现有的方法工具都通过人工编写模板的方式生成抽取模式。这种人工编写网络数据采集程序的方法往往需要根据不同网址编写不同程序，效率较低，并且需要花大量时间维护和调试代码。

发明内容

有鉴于此，本发明实施例的目的是提供一种基于启发式规则的网页内容的抽取方法与系统，可以快速高效的进行网页抽取，且通用性强。

为实现上述目的，本发明实施例提供了一种基于启发式规则的网页内容的抽取方法，包括：

接收待提取网页内容的目标网址，根据所述目标网址获取所述目标网址对应的目标网页源码；

基于预设的启发式规则对所述目标网页源码进行抽取，得到网页正文源码；

遍历所述网页正文源码，以得到目标标签以及所述目标标签对应的标签内容；

根据所述目标标签对应的标签属性，将所述目标标签内容存储到数据表格中，并发送给前端进行视图展示。

进一步地，所述遍历所述网页正文源码，以得到目标标签以及所述目标标签对应的标签内容包括：

遍历所述网页正文源码，得到多个标签；

通过层次聚类将所述多个标签进行排序，得到多个等级的标签；

将所述多个等级的标签中的同等级标签作为目标标签，并将所述目标标签对应的标签内容进行合并，得到所述目标标签对应的标签内容。

进一步地，所述基于预设的启发式规则对所述目标网页源码进行抽取，得到网页正文源码包括：