[发明专利]网页消重方法、装置及存储介质有效
申请号: | 201610391118.0 | 申请日: | 2016-06-03 |
公开(公告)号: | CN107463571B | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 杨俊 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/958 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 柯瑞京 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 方法 装置 存储 介质 | ||
一种网页消重方法方法,包括:网页正文抽取步骤(S1),对作为消重对象的网页的html源代码进行分析,提取出所述网页的正文内容;正文特征提取步骤(S2),对提取出的所述正文内容按段落进行分段,并抽取段落中的能唯一代表该段落特征的段落中心句作为分段特征,并将所有的分段特征作为所述正文内容的正文特征;以及消重步骤(S3),将所述正文特征与既存网页中的既存正文特征进行相似度计算,以确定是否为重复网页并进行消重。
技术领域
本发明涉及一种网页消重方法,特别涉及基于段落的网页消重方法。
背景技术
随着Internet的发展及其广泛应用,网络上的信息呈爆炸式增长,互联网已经成为了人们获取信息的重要来源。为了帮助人们快速找到所需要的信息,搜索引擎技术就应运而生了。搜索引擎方便了人们查找自己所需要的信息,节省了处理时间,已经成为了人们使用频繁的网上服务。
但是据互联网信息中心统计报告显示,重复结果太多是用户在使用搜索引擎时遇到的主要问题。据统计,Internet上大约有30%左右的重复网页,大部分是由于转载造成的。网页重复问题对搜索引擎带来了一定的影响,重复网页不仅浪费了存储空间,也增加了搜索引擎的处理时间。同时搜索引擎的检索结果包含了很多内容重复的网页,降低了检索质量,所以网页消重已经成为搜索引擎中一项必不可少的工作。
当前,高质量的网页消重都是将网页正文文本作为消重对象的,是基于内容的文本复制检测。两个网页之间存在重复,表现为网页正文文本间内容完全相同或部分相同。网页消重的核心任务是判断网页正文文本之间的相似度,所谓相似度是指网页正文文本内容相同和相关的比例,文本间相似度越大,文本复制的可能性越大,相似度越小,文本复制的可能性越小。网页消重技术一般不是将整个网页作为处理对象的,而是从网页中抽取足以代表该网页的特征,然后对这些特征进行相似度的计算,关键技术就是网页正文内容的特征提取算法及特征相似度比较算法。
现有技术方案中,主要有基于特征句和基于标点的消重算法。
在基于特征句的消重算法中,首先,提取网页正文,对网页正文进行分词。其次,为了抽取出每个网页文本的特征词,而要考虑每个词语的词频信息(Frequency)、位置信息(Location)、是否在标题中出现(Title)以及其他一些特殊的标识性信息。然后,综合考虑上述四个选项,分别赋予不同的比例,计算得到特征词的权值,并从中找出权值最大的特征词。接着,在网页正文中寻找该特征词第一次出现的位置,以其第一次出现所在的句子作为该网页的特征句。然后,将两篇网页的比较转换为两个句子的最长公共子序列的比较。当匹配度达到设定的阈值时,则认为该网页与重复网页数据库中的网页重复,将该网页与原网页合并,如果整个网页数据库中都没有与之重复的网页,则将该网页加入到网页数据库中。
另外,网页正文部分一般都会包含标点符号。基于标点的网页消重算法就是利用标点符号出现在网页文本中的特点,在文章中特定的位置提取出一些字符,将这些字符组成代表该字符串的字符串来唯一的标识网页。然后比较字符串之间的相似度来判断是否为重复网页。
然而,现有技术中均存在一定的技术问题。
例如,基于特征词的网页消重算法,特征的选取比较复杂,需要考虑较多的因素,同时特征词的比较算法时间复杂度较高,当网页规模达到几十万的时候,由于需要与网页集合中的特征句两两比较会导致时间复杂度急剧增加。
例如,基于标点的网页消重算法只适用于网页正文含有标点符号,且内容不会改变的情况,如果网页正文内容发生变化(语句前后顺序变化等),会导致抽取的标点特征字符串发生变化导致判断错误。同时也存在比较特征字符串时间复杂度高的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610391118.0/2.html,转载请声明来源钻瓜专利网。