[发明专利]一种相似帖子的确定方法、装置、存储介质及终端在审
申请号: | 201811570832.1 | 申请日: | 2018-12-21 |
公开(公告)号: | CN109670153A | 公开(公告)日: | 2019-04-23 |
发明(设计)人: | 王硕硕 | 申请(专利权)人: | 北京城市网邻信息技术有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F16/31 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 张然 |
地址: | 100015 北京市朝阳区酒仙桥*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种相似帖子的确定方法、装置、存储介质及终端,通过计算出新增帖子的simhash值后,将simhash值分为相同的几个部分,并分别获取具有相同部分的其他帖子的simhash值与新增帖子的simhash值进行汉明距离的计算,汉明距离小于预设阈值时,证明新增帖子存在相似帖子,此时可针对相似帖子进行删除操作。本发明通过上述方法降低了计算帖子之间汉明距离的次数,提高查询速度,在入库的同时,迅速确定是否为相似贴,提高了去重效率,从而达到快速确定和删除相似帖子的目的,避免向用户重复推荐相同或相似帖子,提高用户的使用体验。 | ||
搜索关键词: | 帖子 汉明距离 存储介质 终端 快速确定 删除操作 用户重复 阈值时 去重 预设 删除 入库 查询 | ||
【主权项】:
1.一种相似帖子的确定方法,其特征在于,包括:计算新增帖子的最小哈希签名值simhash;将所述新增帖子的simhash值转换为第一预设位数的二进制字符串,并将所述第一预设位数的二进制字符串均分为预设个数的第二预设位数的二进制字符串;以所述预设个数中的每个第二预设位数的二进制字符串作为关键字,从分布式缓存数据库分布式缓存数据库中获取所述关键字对应的值内保存的列表,其中,所述列表中保存有具有相同关键字的帖子的simhash值;计算所述新增帖子的simhash值与所述列表中已存在的每个帖子的simhash值之间的汉明距离;检测是否存在与所述新增帖子的simhash值的所述汉明距离大于预设阈值的帖子;在存在与所述新增帖子的simhash值的所述汉明距离大于所述预设阈值的帖子的情况下,确定所述新增帖子存在相似内容;在不存在与所述新增帖子的simhash值的所述汉明距离大于所述预设阈值的帖子的情况下,确定所述新增帖子不存在相似内容。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京城市网邻信息技术有限公司,未经北京城市网邻信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811570832.1/,转载请声明来源钻瓜专利网。