[发明专利]一种资讯去重的方法、系统、存储介质及电子设备有效
申请号: | 202010202214.2 | 申请日: | 2020-03-20 |
公开(公告)号: | CN111552864B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 陈扬;陆惠国;顾文斌;樊梦军;徐东剑 | 申请(专利权)人: | 上海恒生聚源数据服务有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9538 |
代理公司: | 杭州华鼎知识产权代理事务所(普通合伙) 33217 | 代理人: | 项军 |
地址: | 200127 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及计算机技术领域,尤其涉及一种资讯去重的方法、系统、存储介质及电子设备,方法包括:对目标资讯的标题与去重库中资讯的标题进行重复判断;若资讯的标题重复,则对标题重复的资讯进行去重处理;若资讯的标题不重复,则对目标资讯的内容与去重库中资讯的内容进行重复判断:获取目标资讯内容的simhash码及去重库中各资讯内容的simhash码,并将各simhash码分为N段M位长度的子码,N、M为大于1的自然数;基于各子码建立去重库中对应资讯的索引;对目标资讯的内容与去重库中相同子码对应的资讯的内容进行重复判断,若资讯的内容重复,则对内容重复的资讯进行去重处理。通过使用本发明,可以快速、准确的实现资讯重复的判断。 | ||
搜索关键词: | 一种 资讯 方法 系统 存储 介质 电子设备 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海恒生聚源数据服务有限公司,未经上海恒生聚源数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010202214.2/,转载请声明来源钻瓜专利网。