[发明专利]一种面向构建知识图谱的网页正文抽取方法在审

申请号：	202110136666.X	申请日：	2021-02-01
公开（公告）号：	CN112861043A	公开（公告）日：	2021-05-28
发明（设计）人：	何盼;陈晓峰;麻沁甜;刘星辰	申请（专利权）人：	上海苍阙信息科技有限公司
主分类号：	G06F16/957	分类号：	G06F16/957;G06F16/36
代理公司：	上海骁象知识产权代理有限公司 31315	代理人：	赵俊寅
地址：	200439 上海市宝山***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种面向构建知识图谱网页正文抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种面向构建知识图谱的网页正文抽取方法，其特征在于，包括以下步骤：

步骤S01，对网页进行预处理，找到其中所有的容器类信息块作为候选；

步骤S02，对于每个候选信息块分别计算各个评价指标；

步骤S03，将得到的指标值相乘，得到每个候选信息块的最后得分；

步骤S04，根据步骤S03所获得分和设定规则选取内容信息块；

步骤S05，过滤一些HTML标签，从内容信息块中抽取文本内容。

2.根据权利要求1所述的一种面向构建知识图谱的网页正文抽取方法，其特征在于，步骤S01中所述网页预处理具体包括以下步骤：

步骤S11，过滤注释；

步骤S12，把网页解析成DOM树；

步骤S13，获得所有容器类信息块；

步骤S14，找到标题所在信息块；

步骤S15，得到标题块的位置。

3.根据权利要求1所述的一种面向构建知识图谱的网页正文抽取方法，其特征在于，步骤S02中所述候选信息块评价指标具体步骤如下：

步骤S21，信息块中内容使用向量模型表示，两个信息块(ib_i和ib_j)的内容相似度可以由如下公式计算：

其中w_k,i为信息块ib_i的第k个词的纬度值；

步骤S22，两个信息块之间的相对位置权重可由如下公式计算：

其中，PL是对应网页中信息块的总个数，K是一个经验参数；LOC指对应的信息块在DOM树中的序号；

步骤S23，信息块的文字数量指其包含的除去HTML标签的所有文字的总数，其取值范围为大于等于零的整数；

步骤S24，信息块的标签数量指该信息块中HTML标签的总数，其函数形式为TQ(ib_b,TAGTYPE)，其中TAGTYPE表示标签的类型，可以取值为HT_s(特殊标签，包括br/和p)，HT_L(链接标签a)，HT_N(除HT_s和HT_L外的其他标签)或HT(所有标签)；

步骤S25，信息块的标签影响因子的定义如下式所示：

其中TTQ由如下公式计算：

TTQ(ib_i)＝TQ(ib_i,HT_N)+K_L×TQ(ib_i,HT_L)+K_s×TQ(ib_i,HT_s)。

4.根据权利要求1所述的一种面向构建知识图谱的网页正文抽取方法，其特征在于：步骤S03中所述最后得分具体步骤为：

步骤S31：使用如下公式求出各信息块内容相似度标准值：

步骤S32：使用如下公式求出各信息块位置权重标准值：

步骤S33：使用如下公式求出各信息块文字数量标准值：

步骤S34：使用如下公式求出各信息块标签数量标准值：

步骤S35：使用如下公式求出各信息块的标签影响因子标准值：

步骤S36：使用如下公式计算各信息块所获得分：

步骤S37：选取所获得分最高的信息块即为所寻内容信息块。

5.根据权利要求4所述的一种面向构建知识图谱的网页正文抽取方法，其特征在于，步骤S04中所述网页遵循设定的规则具体包括：

规则1：正文内容通常比其他内容与标题的相似度更高；

规则2：正文内容通常与标题比较靠近；

规则3：正文内容的长度通常比网页中其他部分的长度要长；

规则4：正文内容中除了换行标签br/和段落标签p外，其他标签的数量通常比较少。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海苍阙信息科技有限公司，未经上海苍阙信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110136666.X/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载