[发明专利]文本去重方法及装置在审
申请号: | 201811173826.2 | 申请日: | 2018-10-09 |
公开(公告)号: | CN109241505A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 唐梓毅;汪冠春;胡一川;张海雷 | 申请(专利权)人: | 北京奔影网络科技有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F16/33 |
代理公司: | 北京卓唐知识产权代理有限公司 11541 | 代理人: | 唐海力;李志刚 |
地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 去重 文本特征 预设 申请 保留 哈希 网站 | ||
1.一种文本去重方法,其特征在于,包括:
通过计算待处理文本的相似哈希值得到相似文本对;
判断所述相似文本对中的预设文本特征是否相同;
如果判断所述相似文本对中的预设文本特征相同,则保留所述相似文本对中的一条文本;以及
如果判断所述相似文本对中的预设文本特征不同,则保留所述相似文本对。
2.根据权利要求1所述的文本去重方法,其特征在于,通过计算待处理文本的相似哈希值得到相似文本对包括:
计算待处理文本中标题的相似哈希值;
抽取所述待处理文本中的预设文本特征并建立特征索引;以及
通过所述特征索引在所述相似哈希值中搜索出距离小于阈值的文档对,得到相似文本对。
3.根据权利要求1所述的文本去重方法,其特征在于,判断所述相似文本对中的预设文本特征是否相同包括:
所述相似文本对为通过计算项目招标文本的相似哈希值得到的相似文本对时,判断所述相似文本对中的网站来源是否相同;
如果判断所述相似文本对中的网站来源相同,则判断所述相似文本对中的项目编号是否相同;
如果判断所述相似文本对中的项目编号相同,则判断所述相似文本对中的公告类型是否相同。
4.根据权利要求1所述的文本去重方法,其特征在于,通过计算待处理文本的相似哈希值得到相似文本对之前还包括:
计算待处理文档中的标题的相似哈希值;
判断所述相似哈希值是否满足预设相似文本对的条件;
如果判断所述相似哈希值不满足预设相似文本对的条件,则认为待处理文档中不存在重复文档并保留所述待处理文档。
5.根据权利要求1所述的文本去重方法,其特征在于,
如果判断所述相似文本对中的预设文本特征相同,则保留所述相似文本对中的一条文本包括:
如果判断所述相似文本对中的预设文本特征相同,则认为文档重复并根据预设规则保留相似文本对中的一条文本;
如果判断所述相似文本对中的预设文本特征不同,则保留所述相似文本对包括:
如果判断所述相似文本对中的预设文本特征不同,则认为文档不重复并将所述保留相似文本对中的文本都保留。
6.一种文本去重装置,其特征在于,包括:
计算模块,用于通过计算待处理文本的相似哈希值得到相似文本对;
判断模块,用于判断所述相似文本对中的预设文本特征是否相同;
第一处理模块,用于判断所述相似文本对中的预设文本特征相同时,保留所述相似文本对中的一条文本;以及
第二处理模块,用于判断所述相似文本对中的预设文本特征不同时,保留所述相似文本对。
7.根据权利要求6所述的文本去重装置,其特征在于,所述计算模块包括:
第一计算单元,用于计算待处理文本中标题的相似哈希值;
抽取单元,用于抽取所述待处理文本中的预设文本特征并建立特征索引;以及
搜索单元,用于通过所述特征索引在所述相似哈希值中搜索出距离小于阈值的文档对,得到相似文本对。
8.根据权利要求6所述的文本去重装置,其特征在于,判断模块包括:
第一判断单元,用于所述相似文本对为通过计算项目招标文本的相似哈希值得到的相似文本对时,判断所述相似文本对中的网站来源是否相同;
第二判断单元,用于判断所述相似文本对中的网站来源相同时,判断所述相似文本对中的项目编号是否相同;
第三判断单元,用于如果判断所述相似文本对中的项目编号相同时,判断所述相似文本对中的公告类型是否相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奔影网络科技有限公司,未经北京奔影网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811173826.2/1.html,转载请声明来源钻瓜专利网。