[发明专利]一种面向构建知识图谱的网页正文抽取方法在审

申请号：	202110136666.X	申请日：	2021-02-01
公开（公告）号：	CN112861043A	公开（公告）日：	2021-05-28
发明（设计）人：	何盼;陈晓峰;麻沁甜;刘星辰	申请（专利权）人：	上海苍阙信息科技有限公司
主分类号：	G06F16/957	分类号：	G06F16/957;G06F16/36
代理公司：	上海骁象知识产权代理有限公司 31315	代理人：	赵俊寅
地址：	200439 上海市宝山***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向构建知识图谱网页正文抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种面向构建知识图谱的网页正文抽取方法，包括以下步骤：对网页进行预处理，找到其中所有的容器类信息块作为候选。对于每个候选信息块分别计算各个评价指标。将得到的指标值相乘，得到每个候选信息块的最后得分。依据得分和特定规则从中选取内容信息块，过滤一些HTML标签，从内容信息块中抽取文本内容。从而实现网页征文的抽取。本发明克服了现有技术的不足，能够解决从互联网网页、开放链接数据、开放知识库、现在百科等数据源中寻找正文文本的问题。

技术领域

本发明涉及计算机大数据处理技术领域，具体涉及一种面向构建知识图谱的网页正文抽取方法。

背景技术

文本信息的来源很多，对于通用知识图谱构建而言，最主要的文本来源是互联网中的网页。要使用这些文本，需要首先把网页从互联网中采集到本地，然后把其中的内容抽取出来。文本可以说是最丰富的的数据源，在互联网网页、开放链接数据、开放知识库、在线百科中，甚至是数据库中结构化数据的某些字段中，均存在大量的文本。本发明提出一种全新机遇启发式规则的网页征文内容抽取方法。

发明内容

针对现有技术的不足，本发明提供了一种面向构建知识图谱的网页正文抽取方法，克服了现有技术的不足，能够解决从互联网网页、开放链接数据、开放知识库、现在百科等数据源中寻找正文文本的问题。

为实现以上目的，本发明通过以下技术方案予以实现：

一种面向构建知识图谱的网页正文抽取方法，包括以下步骤：

步骤S01，对网页进行预处理，找到其中所有的容器类信息块作为候选；

步骤S02，对于每个候选信息块分别计算各个评价指标；

步骤S03，将得到的指标值相乘，得到每个候选信息块的最后得分；

步骤S04，根据步骤S03所获得分和设定规则选取内容信息块；

步骤S05，过滤一些HTML标签，从内容信息块中抽取文本内容。

优选地，步骤S01中所述网页预处理具体包括以下步骤：

步骤S11，过滤注释；

步骤S12，把网页解析成DOM树；