[发明专利]基于文本指纹算法的短文本集合相似度比较方法及系统有效
申请号: | 201911401853.5 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111159996B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 邱平 | 申请(专利权)人: | 福建福诺移动通信技术有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/126;G06F40/284 |
代理公司: | 北京易捷胜知识产权代理有限公司 11613 | 代理人: | 林振杰 |
地址: | 350003 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 指纹 算法 集合 相似 比较 方法 系统 | ||
1.一种基于改进的文本指纹算法的短文本集合相似度比较方法,其特征在于,包括以下步骤:
对每个文本进行分词处理,得到各个文本的单词集合;
将每个文本的单词集合进行停用词过滤;
对每个文本,动态设置K值,对停用词过滤后的单词集合提取K-shingle,得到各个文本的K-Shingle集合;
根据各个文本的K-Shingle集合计算两个文本之间的相似度;
所述动态设置K值,对停用词过滤后的单词集合提取K-shingle,具体为,设单词集合中的单词个数为M,从K=1至K=M进行Shingle提取,并且将所有的结果合并为一个集合,即为该文本的K-Shingle集合;
K指Shingle中包含的连续词汇的个数K;
根据各个文本的K-Shingle集合计算两个文本之间的相似度具体包括以下步骤:
步骤S1:将所有文本的K-Shingle集合中的K-shingle互异值构成一个大小为N的词组库;用one-hot的方式对每篇文本进行编码,分别得到一个长度为N的特征向量,当词组库中的第 n个K-shingle在文档中出现时,该文档特征向量的第 n个元素为1,否则为0;
步骤S2:计算两个文本的特征向量之间的Jaccard相似度,并与预设的相似度阈值进行比较,以此判定两个文本是否相似。
2.根据权利要求1所述的一种基于改进的文本指纹算法的短文本集合相似度比较方法,其特征在于,所述对每个文本进行分词处理,得到各个文本的单词集合具体为:以中文单词为最小分词单位,对预处理后的短文本集合中的每个文本进行分词处理,得到每个文本的单词集合。
3.一种基于改进的文本指纹算法的短文本集合相似度比较系统,包括存储器、处理器以及存储在所述存储器上并能够在所述处理器上运行的计算机程序,其特征在于,当所述处理器执行该计算机程序时,实现如权利要求1-2任一项所述的方法。
4.一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序,其特征在于,处理器在运行该计算机程序时,实现如权利要求1-2任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建福诺移动通信技术有限公司,未经福建福诺移动通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911401853.5/1.html,转载请声明来源钻瓜专利网。