[发明专利]文本去重方法、装置和电子设备在审
申请号: | 202111618080.3 | 申请日: | 2021-12-27 |
公开(公告)号: | CN114417102A | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 张洵;刘青松;刘博伟;彭辉 | 申请(专利权)人: | 北京清格科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F40/194;G06F40/216;G06F40/289;G06F16/903 |
代理公司: | 泰和泰律师事务所 51219 | 代理人: | 祝海燕 |
地址: | 100034 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 方法 装置 电子设备 | ||
1.一种文本去重方法,其特征在于,包括:
获取待去重网页集合;
针对所述待去重网页集合中的每个待去重网页,从该待去重网页的网页数据中提取网页特征,利用该待去重网页的网页标题和网页正文,基于向量空间哈希算法和最小公共子串匹配算法,确定候选网页集合中是否存在与该待去重网页相似的网页,若存在,则对该待去重网页的相似标志位进行设置,其中,所述网页特征包括网页标题和网页正文,相似的网页所具有的相似标志位相同;
利用相似标志位,对所述待去重网页集合中的待去重网页进行分组;
基于所述网页特征,从每组待去重网页中选取目标网页,删除所述目标网页之外的其他网页,得到去重后的网页集合。
2.根据权利要求1所述的方法,其特征在于,所述利用该待去重网页的网页标题和网页正文,基于向量空间哈希算法和最小公共子串匹配算法,确定候选网页集合中是否存在与该待去重网页相似的网页,包括:
利用向量空间哈希算法,对该待去重网页的网页标题和网页正文求取向量空间哈希值;
针对候选网页集合中的每个候选网页,确定该待去重网页的网页正文的向量空间哈希值与该候选网页的网页正文的向量空间哈希值之间的汉明距离作为第一汉明距离;
利用所述第一汉明距离,确定所述候选网页集合中是否存在第一网页,其中,所述第一网页的网页正文与该待去重网页的网页正文相似;
若所述候选网页集合中存在所述第一网页,则确定所述候选网页集合中存在与该待去重网页相似的网页。
3.根据权利要求2所述的方法,其特征在于,在所述利用所述第一汉明距离,确定所述候选网页集合中是否存在第一网页之后,所述方法还包括:
若所述候选网页集合中不存在所述第一网页,则针对所述候选网页集合中的每个候选网页,确定该待去重网页的网页标题的向量空间哈希值与该候选网页的网页标题的向量空间哈希值之间的汉明距离作为第二汉明距离;
利用所述第二汉明距离,确定所述候选网页集合中是否存在第二网页集合,其中,第二网页的网页标题与该待去重网页的网页标题相似;
若所述候选网页集合中存在所述第二网页集合,则针对所述第二网页集合中的每个第二网页,将该第二网页的网页正文与该待去重网页的网页正文进行最小公共子串比对,确定该第二网页的网页正文与该待去重网页的网页正文是否相似;
若该第二网页的网页正文与该待去重网页的网页正文相似,则确定所述候选网页集合中存在与该待去重网页相似的网页。
4.根据权利要求3所述的方法,其特征在于,在所述确定该第二网页的网页正文与该待去重网页的网页正文是否相似之后,所述方法包括:
若该第二网页的网页正文与该待去重网页的网页正文不相似,则将该待去重网页添加到所述候选网页集合中。
5.根据权利要求3所述的方法,其特征在于,在所述利用所述第二汉明距离,确定所述候选网页集合中是否存在第二网页集合之后,所述方法包括:
若所述候选网页集合中不存在所述第二网页集合,则将该待去重网页添加到所述候选网页集合中。
6.根据权利要求2所述的方法,其特征在于,所述利用向量空间哈希算法,对该待去重网页的网页标题和网页正文求取向量空间哈希值,包括:
对该待去重网页的网页标题和网页正文进行窗口滑动分词,其中,每个分词结果的字符长度是相等的。
7.根据权利要求1所述的方法,其特征在于,所述网页特征包括网页所属网站的权重;以及
所述基于所述网页特征,从每组待去重网页中选取目标网页,包括:
从每组待去重网页中选取网页所属网站的权重最高的网页作为目标网页。
8.根据权利要求7所述的方法,其特征在于,所述网页特征包括网页发布时间;以及
所述基于所述网页特征,从每组待去重网页中选取目标网页,包括:
针对每组待去重网页,若该组待去重网页中网页所属网站的权重相同,则从该组待去重网页中选取网页发布时间最早的网页作为目标网页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京清格科技有限公司,未经北京清格科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111618080.3/1.html,转载请声明来源钻瓜专利网。