[发明专利]一种面向构建知识图谱的网页正文抽取方法在审

专利信息
申请号: 202110136666.X 申请日: 2021-02-01
公开(公告)号: CN112861043A 公开(公告)日: 2021-05-28
发明(设计)人: 何盼;陈晓峰;麻沁甜;刘星辰 申请(专利权)人: 上海苍阙信息科技有限公司
主分类号: G06F16/957 分类号: G06F16/957;G06F16/36
代理公司: 上海骁象知识产权代理有限公司 31315 代理人: 赵俊寅
地址: 200439 上海市宝山*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 构建 知识 图谱 网页 正文 抽取 方法
【说明书】:

一种面向构建知识图谱的网页正文抽取方法,包括以下步骤:对网页进行预处理,找到其中所有的容器类信息块作为候选。对于每个候选信息块分别计算各个评价指标。将得到的指标值相乘,得到每个候选信息块的最后得分。依据得分和特定规则从中选取内容信息块,过滤一些HTML标签,从内容信息块中抽取文本内容。从而实现网页征文的抽取。本发明克服了现有技术的不足,能够解决从互联网网页、开放链接数据、开放知识库、现在百科等数据源中寻找正文文本的问题。

技术领域

本发明涉及计算机大数据处理技术领域,具体涉及一种面向构建知识图谱的网页正文抽取方法。

背景技术

文本信息的来源很多,对于通用知识图谱构建而言,最主要的文本来源是互联网中的网页。要使用这些文本,需要首先把网页从互联网中采集到本地,然后把其中的内容抽取出来。文本可以说是最丰富的的数据源,在互联网网页、开放链接数据、开放知识库、在线百科中,甚至是数据库中结构化数据的某些字段中,均存在大量的文本。本发明提出一种全新机遇启发式规则的网页征文内容抽取方法。

发明内容

针对现有技术的不足,本发明提供了一种面向构建知识图谱的网页正文抽取方法,克服了现有技术的不足,能够解决从互联网网页、开放链接数据、开放知识库、现在百科等数据源中寻找正文文本的问题。

为实现以上目的,本发明通过以下技术方案予以实现:

一种面向构建知识图谱的网页正文抽取方法,包括以下步骤:

步骤S01,对网页进行预处理,找到其中所有的容器类信息块作为候选;

步骤S02,对于每个候选信息块分别计算各个评价指标;

步骤S03,将得到的指标值相乘,得到每个候选信息块的最后得分;

步骤S04,根据步骤S03所获得分和设定规则选取内容信息块;

步骤S05,过滤一些HTML标签,从内容信息块中抽取文本内容。

优选地,步骤S01中所述网页预处理具体包括以下步骤:

步骤S11,过滤注释;

步骤S12,把网页解析成DOM树;

步骤S13,获得所有容器类信息块;

步骤S14,找到标题所在信息块;

步骤S15,得到标题块的位置。

优选地,步骤S02中所述候选信息块评价指标具体步骤如下:

步骤S21,信息块中内容使用向量模型表示,两个信息块(ibi和ibj)的内容相似度可以由如下公式计算:

其中wk,i为信息块ibi的第k个词的纬度值;

步骤S22,两个信息块之间的相对位置权重可由如下公式计算:

其中,PL是对应网页中信息块的总个数,K是一个经验参数;LOC指对应的信息块在DOM树中的序号;

步骤S23,信息块的文字数量指其包含的除去HTML标签的所有文字的总数,其取值范围为大于等于零的整数;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海苍阙信息科技有限公司,未经上海苍阙信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110136666.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top