[发明专利]基于DOM树的页面分块方法、装置、设备及存储介质有效

申请号：	201910675658.5	申请日：	2019-07-25
公开（公告）号：	CN110390038B	公开（公告）日：	2021-10-15
发明（设计）人：	李子茂;江如茜;莫海芳;刘晶;帖军;吴经龙;余慧	申请（专利权）人：	中南民族大学
主分类号：	G06F16/901	分类号：	G06F16/901;G06F16/906;G06F16/957;G06F16/958
代理公司：	深圳市世纪恒程知识产权代理事务所 44287	代理人：	胡海国
地址：	430074 湖北省武汉***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 dom 页面分块方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于DOM树的页面分块方法、装置、设备及存储介质，通过对待分块网页进行去噪处理，根据去噪后的网页生成DOM树；获取所述DOM树上各节点的节点路径，计算各节点路径的相似度，根据所述相似度对各节点进行聚类，并生成聚类结果；根据所述聚类结果对所述待分块网页进行分块，能够减少噪音内容对网页信息抽取的影响，提高了页面信息提取的准确性，并且能适应不同结构的网页，通用性和适应性较强，节省了信息抽取的时间，加快了信息抽取的速度和效率，提升了用户体验。

技术领域

本发明涉及网页信息处理领域，尤其涉及一种基于DOM树的页面分块方法、装置、设备及存储介质。

背景技术

随着计算机在世界范围内的爆发式增长和普及，网络上产生了大量的数据信息，但是由于网络信息来源的异构性，想要浏览和搜索这些庞大的数据集就变得很困难；例如通过现有的搜索引擎存在以下问题：使用关键词检索出来的结果庞杂，包含关键词的网页的链接，需要单独浏览才能判断其是否满足需求；搜索时，只要包含关键词的都会检索出来，降低了信息的有效率，影响用户的获取；在检索关键词的同时，网页上伴随着大量的无用信息，如无关新闻、广告，影响用户的观感体验。

现有的解决方法是通过web信息抽取从大量的大型半结构化网页信息中抽取用户所需的信息，并将其转换为结构化形式以存储在硬盘或数据库中；但是由于大多数网页都没有严格标准化，由此产生的网页结构差异很大，一般的基于统计原理的抽取技术信息抽取准确率较低，通用性较差，而基于语义信息的抽取技术需要不停的对代码书写规则进行更新维护，信息抽取成本较高。

发明内容

本发明的主要目的在于提供一种基于DOM树的页面分块方法、装置、设备及存储介质，旨在解决现有技术中网页信息抽取存在抽取准确率较低，通用性较差，且信息抽取成本较高的技术问题。

为实现上述目的，本发明提供一种基于DOM树的页面分块方法，所述基于DOM树的页面分块方法包括以下步骤：

对待分块网页进行去噪处理，根据去噪后的网页生成DOM树；

获取所述DOM树上各节点的节点路径，计算各节点路径的相似度，根据所述相似度对各节点进行聚类，并生成聚类结果；

根据所述聚类结果对所述待分块网页进行分块。

优选地，所述对待分块网页进行去噪处理，根据去噪后的网页生成DOM树，具体包括：

根据预设网页清洗规则对待分块网页中的目标代码进行清洗，获得预设格式的HTML文档；

对所述HTML文档进行识别，获得所述HTML文档中的噪音标签；

将所述噪音标签从所述HTML文档中过滤，根据过滤后的HTML文档确定各节点，并根据各节点构建DOM树。

优选地，所述获取所述DOM树上各节点的节点路径，计算各节点路径的相似度，根据所述相似度对各节点进行聚类，并生成聚类结果，具体包括：

获取所述DOM树上各节点到根节点的路径，将各路径作为各节点路径；