[发明专利]网页消重方法、装置及存储介质有效
申请号: | 201610391118.0 | 申请日: | 2016-06-03 |
公开(公告)号: | CN107463571B | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 杨俊 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/958 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 柯瑞京 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 方法 装置 存储 介质 | ||
1.一种网页消重方法,包括:
网页正文抽取步骤(S1),对作为消重对象的网页的html源代码进行分析,提取出所述网页的正文内容;
正文特征提取步骤(S2),对提取出的所述正文内容按段落进行分段,并抽取段落中的能唯一代表该段落特征的段落中心句作为分段特征,并将所有的分段特征作为所述正文内容的正文特征;以及
消重步骤(S3),将所述正文特征与既存网页中的既存正文特征进行相似度计算,以确定是否为重复网页并进行消重,
在所述网页正文抽取步骤(S1)中,包括:
基于dom树,通过title标签来提取网页的标题,将所提取的所述标题进行分词,并去掉对于该标题无实际意义的停用词,得到分词数组作为判断正文的基准的步骤;
遍历所述html源代码,找到除了所述title标签之外的标题第一次出现的位置作为假定文本位置的步骤;
根据所述假定文本位置,找到包含标题的html标签作为待扫描标签的步骤;
扫描所述待扫描标签的父标签,将获得的该父标签作为假定文本标签的步骤;
遍历所述假定文本标签的所有子标签,提取该子标签的文本文字的步骤;
判定所述文本文字是否包含所述分词数组的步骤;以及
当判定为所述文本文字包含所述分词数组时,将与所述子标签具有相同css样式的其它同级子标签作为包含网页正文的标签集合,将该标签集合中所有标签的文本文字作为网页文本的步骤。
2.根据权利要求1所述的网页消重方法,其特征在于,
所述段落中心句是所述段落中最长的句子。
3.根据权利要求1所述的网页消重方法,其特征在于,
所述分段是通过html中的在网页渲染时会另起新行的块级元素来实现的。
4.根据权利要求3所述的网页消重方法,其特征在于,
所述块级元素包括html的如下标签:P、DIV、TABLE、TR、TD、以及css中具有换行样式的语句。
5.根据权利要求1所述的网页消重方法,其特征在于,
在所述正文特征提取步骤(s2)中,在所述分段之后,是按照段落文本长度从大到小进行排序,且取段落长度前N个的自然段来进行分段特征的抽取的,其中N为大于0的整数。
6.根据权利要求5所述的网页消重方法,其特征在于,
所述N为预先设定的阈值。
7.根据权利要求1所述的网页消重方法,其特征在于,
作为所述分段特征的所述段落中心句是被去掉所有标点符号且将全角变换为半角后得到的句子。
8.根据权利要求7所述的网页消重方法,其特征在于,
所述消重步骤(S3)中的相似度计算是通过哈希算法来实现的。
9.根据权利要求7所述的网页消重方法,其特征在于,
在所述消重步骤(S3)中,在判断完所有的分段特征的哈希值是否在哈希表中存在之后,还要计算在哈希表中存在的分段特征是否属于同一篇网页,只有当属于同一篇网页的分段特征对应的段落长度之和大于预先设定的阈值的时候,才判断为重复网页。
10.根据权利要求9所述的网页消重方法,其特征在于,
在所述步骤(S3)中,
将判断为存在于所述哈希表中的分段构成分段集合,并计算所述分段集合的幂集合,且遍历所述幂集合来进行重复网页的判定。
11.根据权利要求1至10任一项所述的网页消重方法,其特征在于,
在所述网页正文抽取步骤(S1)中,是将网页的html源代码初始化为dom树来进行分析的。
12.根据权利要求1所述的网页消重方法,其特征在于,
所述停用词包括:数词、量词、代词、方位词、拟声词、叹词、及没有实际意义的动词、以及太过于常用的名词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610391118.0/1.html,转载请声明来源钻瓜专利网。