[发明专利]网页消重方法、装置及存储介质有效
申请号: | 201610391118.0 | 申请日: | 2016-06-03 |
公开(公告)号: | CN107463571B | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 杨俊 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/958 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 柯瑞京 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种网页消重方法方法,包括:网页正文抽取步骤(S1),对作为消重对象的网页的html源代码进行分析,提取出所述网页的正文内容;正文特征提取步骤(S2),对提取出的所述正文内容按段落进行分段,并抽取段落中的能唯一代表该段落特征的段落中心句作为分段特征,并将所有的分段特征作为所述正文内容的正文特征;以及消重步骤(S3),将所述正文特征与既存网页中的既存正文特征进行相似度计算,以确定是否为重复网页并进行消重。 | ||
搜索关键词: | 网页 方法 装置 存储 介质 | ||
【主权项】:
一种网页消重方法,包括:网页正文抽取步骤(S1),对作为消重对象的网页的html源代码进行分析,提取出所述网页的正文内容;正文特征提取步骤(S2),对提取出的所述正文内容按段落进行分段,并抽取段落中的能唯一代表该段落特征的段落中心句作为分段特征,并将所有的分段特征作为所述正文内容的正文特征;以及消重步骤(S3),将所述正文特征与既存网页中的既存正文特征进行相似度计算,以确定是否为重复网页并进行消重。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610391118.0/,转载请声明来源钻瓜专利网。