[发明专利]一种面向构建知识图谱的网页正文抽取方法在审
申请号: | 202110136666.X | 申请日: | 2021-02-01 |
公开(公告)号: | CN112861043A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 何盼;陈晓峰;麻沁甜;刘星辰 | 申请(专利权)人: | 上海苍阙信息科技有限公司 |
主分类号: | G06F16/957 | 分类号: | G06F16/957;G06F16/36 |
代理公司: | 上海骁象知识产权代理有限公司 31315 | 代理人: | 赵俊寅 |
地址: | 200439 上海市宝山*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 构建 知识 图谱 网页 正文 抽取 方法 | ||
一种面向构建知识图谱的网页正文抽取方法,包括以下步骤:对网页进行预处理,找到其中所有的容器类信息块作为候选。对于每个候选信息块分别计算各个评价指标。将得到的指标值相乘,得到每个候选信息块的最后得分。依据得分和特定规则从中选取内容信息块,过滤一些HTML标签,从内容信息块中抽取文本内容。从而实现网页征文的抽取。本发明克服了现有技术的不足,能够解决从互联网网页、开放链接数据、开放知识库、现在百科等数据源中寻找正文文本的问题。
技术领域
本发明涉及计算机大数据处理技术领域,具体涉及一种面向构建知识图谱的网页正文抽取方法。
背景技术
文本信息的来源很多,对于通用知识图谱构建而言,最主要的文本来源是互联网中的网页。要使用这些文本,需要首先把网页从互联网中采集到本地,然后把其中的内容抽取出来。文本可以说是最丰富的的数据源,在互联网网页、开放链接数据、开放知识库、在线百科中,甚至是数据库中结构化数据的某些字段中,均存在大量的文本。本发明提出一种全新机遇启发式规则的网页征文内容抽取方法。
发明内容
针对现有技术的不足,本发明提供了一种面向构建知识图谱的网页正文抽取方法,克服了现有技术的不足,能够解决从互联网网页、开放链接数据、开放知识库、现在百科等数据源中寻找正文文本的问题。
为实现以上目的,本发明通过以下技术方案予以实现:
一种面向构建知识图谱的网页正文抽取方法,包括以下步骤:
步骤S01,对网页进行预处理,找到其中所有的容器类信息块作为候选;
步骤S02,对于每个候选信息块分别计算各个评价指标;
步骤S03,将得到的指标值相乘,得到每个候选信息块的最后得分;
步骤S04,根据步骤S03所获得分和设定规则选取内容信息块;
步骤S05,过滤一些HTML标签,从内容信息块中抽取文本内容。
优选地,步骤S01中所述网页预处理具体包括以下步骤:
步骤S11,过滤注释;
步骤S12,把网页解析成DOM树;
步骤S13,获得所有容器类信息块;
步骤S14,找到标题所在信息块;
步骤S15,得到标题块的位置。
优选地,步骤S02中所述候选信息块评价指标具体步骤如下:
步骤S21,信息块中内容使用向量模型表示,两个信息块(ibi和ibj)的内容相似度可以由如下公式计算:
其中wk,i为信息块ibi的第k个词的纬度值;
步骤S22,两个信息块之间的相对位置权重可由如下公式计算:
其中,PL是对应网页中信息块的总个数,K是一个经验参数;LOC指对应的信息块在DOM树中的序号;
步骤S23,信息块的文字数量指其包含的除去HTML标签的所有文字的总数,其取值范围为大于等于零的整数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海苍阙信息科技有限公司,未经上海苍阙信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110136666.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:LED指示信息电子表
- 下一篇:一种绿色建筑用可调节的切割装置