[发明专利]一种面向构建知识图谱的网页正文抽取方法在审
申请号: | 202110136666.X | 申请日: | 2021-02-01 |
公开(公告)号: | CN112861043A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 何盼;陈晓峰;麻沁甜;刘星辰 | 申请(专利权)人: | 上海苍阙信息科技有限公司 |
主分类号: | G06F16/957 | 分类号: | G06F16/957;G06F16/36 |
代理公司: | 上海骁象知识产权代理有限公司 31315 | 代理人: | 赵俊寅 |
地址: | 200439 上海市宝山*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 构建 知识 图谱 网页 正文 抽取 方法 | ||
1.一种面向构建知识图谱的网页正文抽取方法,其特征在于,包括以下步骤:
步骤S01,对网页进行预处理,找到其中所有的容器类信息块作为候选;
步骤S02,对于每个候选信息块分别计算各个评价指标;
步骤S03,将得到的指标值相乘,得到每个候选信息块的最后得分;
步骤S04,根据步骤S03所获得分和设定规则选取内容信息块;
步骤S05,过滤一些HTML标签,从内容信息块中抽取文本内容。
2.根据权利要求1所述的一种面向构建知识图谱的网页正文抽取方法,其特征在于,步骤S01中所述网页预处理具体包括以下步骤:
步骤S11,过滤注释;
步骤S12,把网页解析成DOM树;
步骤S13,获得所有容器类信息块;
步骤S14,找到标题所在信息块;
步骤S15,得到标题块的位置。
3.根据权利要求1所述的一种面向构建知识图谱的网页正文抽取方法,其特征在于,步骤S02中所述候选信息块评价指标具体步骤如下:
步骤S21,信息块中内容使用向量模型表示,两个信息块(ibi和ibj)的内容相似度可以由如下公式计算:
其中wk,i为信息块ibi的第k个词的纬度值;
步骤S22,两个信息块之间的相对位置权重可由如下公式计算:
其中,PL是对应网页中信息块的总个数,K是一个经验参数;LOC指对应的信息块在DOM树中的序号;
步骤S23,信息块的文字数量指其包含的除去HTML标签的所有文字的总数,其取值范围为大于等于零的整数;
步骤S24,信息块的标签数量指该信息块中HTML标签的总数,其函数形式为TQ(ibb,TAGTYPE),其中TAGTYPE表示标签的类型,可以取值为HTs(特殊标签,包括br/和p),HTL(链接标签a),HTN(除HTs和HTL外的其他标签)或HT(所有标签);
步骤S25,信息块的标签影响因子的定义如下式所示:
其中TTQ由如下公式计算:
TTQ(ibi)=TQ(ibi,HTN)+KL×TQ(ibi,HTL)+Ks×TQ(ibi,HTs)。
4.根据权利要求1所述的一种面向构建知识图谱的网页正文抽取方法,其特征在于:步骤S03中所述最后得分具体步骤为:
步骤S31:使用如下公式求出各信息块内容相似度标准值:
步骤S32:使用如下公式求出各信息块位置权重标准值:
步骤S33:使用如下公式求出各信息块文字数量标准值:
步骤S34:使用如下公式求出各信息块标签数量标准值:
步骤S35:使用如下公式求出各信息块的标签影响因子标准值:
步骤S36:使用如下公式计算各信息块所获得分:
步骤S37:选取所获得分最高的信息块即为所寻内容信息块。
5.根据权利要求4所述的一种面向构建知识图谱的网页正文抽取方法,其特征在于,步骤S04中所述网页遵循设定的规则具体包括:
规则1:正文内容通常比其他内容与标题的相似度更高;
规则2:正文内容通常与标题比较靠近;
规则3:正文内容的长度通常比网页中其他部分的长度要长;
规则4:正文内容中除了换行标签br/和段落标签p外,其他标签的数量通常比较少。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海苍阙信息科技有限公司,未经上海苍阙信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110136666.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:LED指示信息电子表
- 下一篇:一种绿色建筑用可调节的切割装置