[发明专利]一种基于抽取模板的网页正文抽取方法及装置有效

申请号：	201810760576.6	申请日：	2018-07-11
公开（公告）号：	CN109033282B	公开（公告）日：	2021-07-23
发明（设计）人：	董瑞朝;董新建;李贞	申请（专利权）人：	山东邦尼信息科技有限公司;董新建
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06N3/04;G06K9/62
代理公司：	北京超凡志成知识产权代理事务所(普通合伙) 11371	代理人：	梁斌
地址：	250000 山东省济南市高新区***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于抽取模板网页正文方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于抽取模板的网页正文抽取方法及装置。所述方法包括：获取待抽取正文信息的网页的网页信息，网页的IP地址和网页内容；若判断获知抽取方式为模板抽取，则获取网页信息对应的目标抽取模板，目标抽取模板中包括至少一个段起始信息和至少一个段结尾信息；根据段起始信息和段结尾信息对网页进行分段处理，获得一个或多个网页段；依次对各网页段进行字段抽取获得每一网页段对应多个字段；利用数据库中的字典对字段进行字典映射获得所述字典中与字段对应的字典字段，将字段存入所述字典字段对应的数据表中，以实现对所述网页中正文的抽取。装置用于执行上述方法。本发明可以方便快速地获取到网页中的正文信息。

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种基于抽取模板的网页正文抽取方法及装置。

背景技术

随着时代的发展，万维网已经成为人们获取信息的一个重要来源。用户通常使用浏览器直接查看网页，此外，还有许多基于互联网的信息处理工作(如信息搜索、数据挖掘、机器翻译等)，也是以网页的信息内容为基础数据来进行开展的。但是，现在互联网上的网页的正文信息经常被广告链接、导航条、版权信息等“网页噪音”所包围。如何准确、高效地提取网页的正文信息已经成为当前网络信息抽取及应用的一个重要课题，具有很高的应用价值和实践意义。

目前，关于网页正文提取的方法主要可以分为基于统计、基于DOM结构、基于网页分块等方法。

基于统计的网页正文抽取方法，通过寻找包含中文字符数量最大的节点，来提取网页正文。基于DOM的Web抽取技术，是将网页中某些具有意义的特定标签提取出来，将HTML文档表示成一个DOM树的结构，再根据这些特定标签来提取出树中有效的节点数据。基于网页分块的方法是将呈现给用户的Web页面划分成几个语义块，分析每个块在这个页面的重要程度，来找出网页的正文内容。

随着internet的兴起，基于html的内容信息正以指数级增长，在满足日常用户浏览需求的基础上，通过上述抽取方法很难快速、高效的对网页正文进行抽取。

发明内容

有鉴于此，本发明实施例的目的在于提供一种基于抽取模板的网页正文抽取方法及装置，以解决上述技术问题。

第一方面，本发明实施例提供了一种基于抽取模板的网页正文抽取方法，包括：

获取待抽取正文信息的网页的网页信息，所述网页的IP地址和网页内容；

若判断获知抽取方式为模板抽取，则获取所述网页信息对应的目标抽取模板，所述目标抽取模板中包括至少一个段起始信息和至少一个段结尾信息；

根据所述段起始信息和所述段结尾信息对所述网页进行分段处理，获得一个或多个网页段；

依次对各所述网页段进行字段抽取，获得每一所述网页段对应多个字段；

利用数据库中的字典对所述字段进行字典映射，获得所述字典中与所述字段对应的字典字段，将所述字段存入所述字典字段对应的数据表中，以实现对所述网页中正文的抽取。

进一步地，所述方法，还包括：

预先在数据库中存储多个抽取模板，每一类型的网页对应一个所述抽取模板。

进一步地，所述方法，还包括：