[发明专利]文本重复性判定方法和装置、电子设备和存储介质有效

专利信息
申请号: 201910947326.8 申请日: 2019-09-30
公开(公告)号: CN110750615B 公开(公告)日: 2020-07-24
发明(设计)人: 李东升;崔鸣;江霜艳;王文彬 申请(专利权)人: 贝壳找房(北京)科技有限公司
主分类号: G06F16/31 分类号: G06F16/31;G06F16/33;G06F40/289;G06F40/12
代理公司: 北京思源智汇知识产权代理有限公司 11657 代理人: 毛丽琴
地址: 100085 北京市海淀区*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 重复性 判定 方法 装置 电子设备 存储 介质
【说明书】:

本公开实施例公开了一种文本重复性判定方法和装置、电子设备和存储介质,其中,方法包括:识别目标文本的长度;若目标文本的长度大于第一预设值,将目标文本分割成长度不大于第一预设值的多个文本段;分别利用签名simhash算法,获取多个文本段中每个文本段的签名值;基于多个文本段的签名值与分布式全文搜索引擎ElasticSearch中历史文本的倒排索引信息,判定目标文本与历史文本之间是否重复;其中,ElasticSearch中存储有至少一个历史文本的倒排索引信息,历史文本的倒排索引信息包括:历史文本的签名值,以及长度大于第一预设值时历史文本被分割成的各文本段的签名值。本公开实施例从句子维度上实现了文本内容的重复性判定,可以有效识别两个文本中部分内容重复的问题。

技术领域

本公开涉及互联网技术,尤其是一种文本重复性判定方法和装置、电子设备和存储介质。

背景技术

文本相似度计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。例如用于对一个微博网站进行舆论控制时,可以将需要进行限制的句子提前录入数据库,那么当一个用户发微博时,可以先将用户收入的内容和数据库中的句子进行比较,如果符合数据库里的句子就不允许用户发出。

在实现本公开的过程中,发明人发现,现有的文本相似度算法,无法很好的解决文本的判断以及局部重复的现象。例如,对于常用的K-shingle算法,它的原理是,对于一段文本,文档的k-shingle定义为其中任意长度为k的子串,假设文本的分词向量为[w1,w2,w3,w4,…wn],k=3,那么该文本的shingle向量可表示为[(w1,w2,w3),(w2,w3,w4),(w3,w4,w5),……(wn-2,wn-1,wn)],通过计算两个文本的shingle向量的相似度(即jarccard系数)来判断两个文本是否重复。由于k-shingle算法的shingle向量空间巨大,尤其是在k的取值较大时,shingle向量空间更大,耗费的存储资源和计算资源较高;另外,k-shingle算法的比较粒度较细,由于词的数量有限,两个文本中有词重复并不能说明句子重复,而基于k-shingle算法,只要两个文本之间有词重复就会判定为两个文本重复,很容易误判,导致文本的重复性判断不准确。

发明内容

本公开实施例提供一种用于进行文本重复性判定的技术方案。

根据本公开实施例的一方面,提供的一种文本重复性判定方法,包括:

识别目标文本的长度;

若所述目标文本的长度大于第一预设值,将所述目标文本分割成长度不大于所述第一预设值的多个文本段;

分别利用签名simhash算法,获取所述多个文本段中每个文本段的签名值;

基于所述多个文本段的签名值与分布式全文搜索引擎ElasticSearch中历史文本的倒排索引信息,判定所述目标文本与历史文本之间是否重复;其中,所述ElasticSearch中存储有至少一个历史文本的倒排索引信息,所述历史文本的倒排索引信息包括:历史文本的签名值,以及长度大于第一预设值时历史文本被分割成的各文本段的签名值。

可选地,在本公开上述方法的任一实施例中,所述基于所述多个文本段的签名值与分布式全文搜索引擎ElasticSearch中历史文本的倒排索引信息,判定所述目标文本与历史文本之间是否重复,包括:

基于所述ElasticSearch中历史文本的倒排索引信息,获取所述目标文本的相似历史文本,所述相似历史文本为具有与所述多个文本段的签名值相同签名值的数量最多的历史文本;

根据所述相似历史文本与所述多个文本段中签名值相同的文本段的数量与所述多个文本段的数量,判定所述目标文本与所述历史文本之间是否重复。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝壳找房(北京)科技有限公司,未经贝壳找房(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910947326.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top