[发明专利]基于文本指纹算法的短文本集合相似度比较方法及系统有效
申请号: | 201911401853.5 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111159996B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 邱平 | 申请(专利权)人: | 福建福诺移动通信技术有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/126;G06F40/284 |
代理公司: | 北京易捷胜知识产权代理有限公司 11613 | 代理人: | 林振杰 |
地址: | 350003 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 指纹 算法 集合 相似 比较 方法 系统 | ||
本发明涉及一种基于改进的文本指纹算法的短文本集合相似度比较方法及系统,首先对每个文本进行分词处理,得到各个文本的单词集合;接着将每个文本的单词集合进行停用词过滤;然后对每个文本,动态设置K值,对停用词过滤后的单词集合提取K‑shingle,得到各个文本的K‑Shingle集合;最后根据各个文本的K‑Shingle集合计算两个文本之间的相似度。本发明能够提能够提高接口协议文本相似度比较的准确性。
技术领域
本发明涉及计算机文本信息处理技术领域,特别是一种基于改进的文本指纹算法的短文本集合相似度比较方法及系统。
背景技术
互联网时代网络上充斥着大量重复的内容与信息,无论对于搜索引擎的去重与过滤,媒体平台的去重与防盗版等,都需要高效,准确地对大量文本信息进行相似度比较。
现有典型的文本去重方法采用指纹算法,即先对文本进行分词,然后计算文档的TF-IDF,根据TF-IDF排序,提取排序靠前的几个词作为特征词,利用HASH函数或别的规则为每个文本构造一个指纹,来作为该文本的标识,可以依据该指纹判断文本信息的重复度。
现有的常见的文本指纹算法有:
1、Simhash算法:
Simhash是google用来处理海量文本去重的算法,同时也是一种基于LSH(locality sensitive hashing局部敏感哈希)的算法。局部敏感哈希可以将相似的字符串hash得到相似的hash值,使得相似项会比不相似项更可能的hash到一个桶中,hash到同一个桶中的文档间成为候选对。这样就可以以接近线性的时间去解决相似性判断和去重问题。simhash算法通过计算每个特征(关键词)的哈希值,并最终合并成一个特征值即指纹。
2、K-Shingle算法:
K-Shingle的核心思想是将文件相似性问题转换为集合的相似性问题。一篇文档可以看成是一个字符串,文档的k-shingle为在该文档中长度为k的所有子串,任意一篇文档都可以表示为k-shingles的集合。对于一段文本,分词向量为[w1,w2,w3,w4,…wn],设k=3,那么该文本的shingle向量表示为[(w1,w2,w3),(w2,w3,w4),(w3,w4,w5),……(wn-2,wn-1,wn)],计算两个文本的shingle向量的相似度(jarccard系数)来判断文本是否重复。
然而,Simhash算法效率较高,比较适用于对于长文本,但是simhash算法没有考虑去重的粒度以及词的顺序,面对高精度时可能会带来准确度问题,尤其是对短文本的误报率较高。K-Shingle算法准确度较高,但是由于k-shingle算法的shingle向量空间巨大(特别是k特别大时),相比而言更加耗费资源。
发明内容
有鉴于此,本发明的目的是提出一种基于改进的文本指纹算法的短文本集合相似度比较方法及系统,能够提高接口协议文本相似度比较的准确性。
本发明采用以下方案实现:一种基于改进的文本指纹算法的短文本集合相似度比较方法,具体包括以下步骤:
对每个文本进行分词处理,得到各个文本的单词集合;
将每个文本的单词集合进行停用词过滤;
对每个文本,动态设置K值,对停用词过滤后的单词集合提取K-shingle,得到各个文本的K-Shingle集合;
根据各个文本的K-Shingle集合计算两个文本之间的相似度。
进一步地,所述对每个文本进行分词处理,得到各个文本的单词集合具体为:以中文单词为最小分词单位,对预处理后的短文本集合中的每个文本进行分词处理,得到每个文本的单词集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建福诺移动通信技术有限公司,未经福建福诺移动通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911401853.5/2.html,转载请声明来源钻瓜专利网。