[发明专利]文本重复性判定方法和装置、电子设备和存储介质有效
申请号: | 201910947326.8 | 申请日: | 2019-09-30 |
公开(公告)号: | CN110750615B | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 李东升;崔鸣;江霜艳;王文彬 | 申请(专利权)人: | 贝壳找房(北京)科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33;G06F40/289;G06F40/12 |
代理公司: | 北京思源智汇知识产权代理有限公司 11657 | 代理人: | 毛丽琴 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 重复性 判定 方法 装置 电子设备 存储 介质 | ||
1.一种文本重复性判定方法,其特征在于,包括:
识别目标文本的长度;
若所述目标文本的长度大于第一预设值,将所述目标文本分割成长度不大于所述第一预设值的多个文本段;
分别利用签名simhash算法,获取所述多个文本段中每个文本段的签名值;
将所述多个文本段的签名值进行拼接,得到所述目标文本的拼接签名值;
基于分布式全文搜索引擎ElasticSearch的每个历史文本中各文本段的签名值拼接得到的拼接签名值中,是否存在与所述目标文本的拼接签名值之间的海明距离小于第三预设值的拼接签名值,判定所述目标文本与历史文本之间是否重复;其中,所述ElasticSearch中存储有至少一个历史文本的倒排索引信息,所述历史文本的倒排索引信息包括:历史文本的签名值,以及长度大于第一预设值时历史文本被分割成的各文本段的签名值。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标文本分割成长度不大于所述第一预设值的多个文本段,包括:
从所述目标文本的第一个词开始,以预设窗口长度进行取词,并以预设步长移动,直到所述目标文本的最后一个词,得到所述多个文本段。
3.根据权利要求2所述的方法,其特征在于,所述从所述目标文本的第一个词开始,以预设窗口长度进行取词,并以预设步长移动之前,还包括:
以预设领域的关键词分词器,对所述目标文本进行分词;
所述从所述目标文本的第一个词开始,以预设窗口长度进行取词,并以预设步长移动,包括:针对分词后的所述目标文本,从分词后的所述目标文本的第一个词开始,以预设窗口长度进行取词,并以预设步长移动。
4.根据权利要求1-3任一所述的方法,其特征在于,所述识别目标文本的长度之前,还包括:
利用签名simhash算法,获取所述目标文本的签名值;
查询所述ElasticSearch中是否存在与所述目标文本的签名值之间的海明距离小于第四预设值的历史文本的签名值;
若所述ElasticSearch中不存在与所述目标文本的签名值之间的海明距离小于第四预设值的历史文本的签名值,开始执行所述识别目标文本的长度的操作。
5.根据权利要求4所述的方法,其特征在于,还包括:
若所述ElasticSearch中存在与所述目标文本的签名值之间的海明距离小于第四预设值的历史文本的签名值,判定所述目标文本与历史文本之间重复。
6.根据权利要求1所述的方法,其特征在于,在利用签名simhash算法,获取所述多个文本段中每个文本段的签名值的过程中,减少预设词的权重。
7.根据权利要求4所述的方法,其特征在于,在利用签名simhash算法,获取所述目标文本的签名值的过程中,减少预设词的权重。
8.根据权利要求1-3任一所述的方法,其特征在于,还包括:
在所述ElasticSearch中创建历史文本的倒排索引信息。
9.根据权利要求8所述的方法,其特征在于,在所述ElasticSearch中创建一条历史文本的倒排索引信息,包括:
针对一条历史文本,利用签名simhash算法,获取所述一条历史文本的签名值;
识别所述一条历史文本的长度;
若所述历史文本的长度大于第一预设值,将所述一条历史文本分割成长度不大于所述第一预设值的多个历史文本段;
分别利用simhash算法,获取所述多个历史文本段中每个历史文本段的签名值;
基于所述一条历史文本的签名值、以及长度大于第一预设值时所述多个历史文本段的签名值对所述ElasticSearch中历史文本的倒排索引信息进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贝壳找房(北京)科技有限公司,未经贝壳找房(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910947326.8/1.html,转载请声明来源钻瓜专利网。