[发明专利]文本去重方法、装置和电子设备在审
申请号: | 202111618080.3 | 申请日: | 2021-12-27 |
公开(公告)号: | CN114417102A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 张洵;刘青松;刘博伟;彭辉 | 申请(专利权)人: | 北京清格科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F40/194;G06F40/216;G06F40/289;G06F16/903 |
代理公司: | 泰和泰律师事务所 51219 | 代理人: | 祝海燕 |
地址: | 100034 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 方法 装置 电子设备 | ||
本公开实施例公开了文本去重方法、装置和电子设备。该方法的一具体实施方式包括:获取待去重网页集合;针对待去重网页集合中的每个待去重网页,从该待去重网页的网页数据中提取网页特征,利用该待去重网页的网页标题和网页正文,基于向量空间哈希算法和最小公共子串匹配算法,确定候选网页集合中是否存在与该待去重网页相似的网页,若存在,则对该待去重网页的相似标志位进行设置;利用相似标志位,对待去重网页集合中的待去重网页进行分组;基于网页特征,从每组待去重网页中选取目标网页,删除目标网页之外的其他网页,得到去重后的网页集合。该实施方式在提高网页文本去重效果的同时,提升了去重效率,节省内存。
技术领域
本公开实施例涉及计算机技术领域,具体涉及文本去重方法、装置和电子设备。
背景技术
在一些互联网网站中通常会存在大量相互转载,例如,地方政府网站转载中央政务网站中的新闻这会导致抓取的数据在搜索引擎中检索出现重复,造成不好的用户体验。
现有的文本去重方式基于向量空间哈希(sim-hash)算法,或者最小公共子串匹配(Jaccard)算法。但是,基于Jaccard算法的查重涉及大量计算,速度相对较慢,对计算机内存有所要求,如需查重的网页文本过长会导致内存溢出。基于sim-hash算法的查重更适用于长文本相似度比对,对于短文本的去重效果会存在不准确的情况。
发明内容
提供该公开内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该公开内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开实施例提供了一种文本去重方法、装置和电子设备,在提高网页文本去重效果的同时,提升了去重效率,节省内存。
第一方面,本公开实施例提供了一种文本去重方法,包括:获取待去重网页集合;针对待去重网页集合中的每个待去重网页,从该待去重网页的网页数据中提取网页特征,利用该待去重网页的网页标题和网页正文,基于向量空间哈希算法和最小公共子串匹配算法,确定候选网页集合中是否存在与该待去重网页相似的网页,若存在,则对该待去重网页的相似标志位进行设置,其中,网页特征包括网页标题和网页正文,相似的网页所具有的相似标志位相同;利用相似标志位,对待去重网页集合中的待去重网页进行分组;基于网页特征,从每组待去重网页中选取目标网页,删除目标网页之外的其他网页,得到去重后的网页集合。
第二方面,本公开实施例提供了一种文本去重装置,包括:获取单元,用于获取待去重网页集合;设置单元,用于针对待去重网页集合中的每个待去重网页,从该待去重网页的网页数据中提取网页特征,利用该待去重网页的网页标题和网页正文,基于向量空间哈希算法和最小公共子串匹配算法,确定候选网页集合中是否存在与该待去重网页相似的网页,若存在,则对该待去重网页的相似标志位进行设置,其中,网页特征包括网页标题和网页正文,相似的网页所具有的相似标志位相同;分组单元,用于利用相似标志位,对待去重网页集合中的待去重网页进行分组;去重单元,用于基于网页特征,从每组待去重网页中选取目标网页,删除目标网页之外的其他网页,得到去重后的网页集合。
第三方面,本公开实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的文本去重方法。
第四方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的文本去重方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京清格科技有限公司,未经北京清格科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111618080.3/2.html,转载请声明来源钻瓜专利网。