[发明专利]一种计算文本相似度的方法、系统、设备和存储介质在审
申请号: | 202111240614.3 | 申请日: | 2021-10-25 |
公开(公告)号: | CN113688954A | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 杨乐;阚宏伟;王彦伟 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/216;G06F40/284;G06F40/211 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 刘小峰;张涛 |
地址: | 215000 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 计算 文本 相似 方法 系统 设备 存储 介质 | ||
本发明提供一种计算文本相似度的方法、系统、设备和存储介质,方法包括:分别将待比对文本和基准文本进行预处理;统计每个词语分别在所述待比对文本和所述基准文本中的频率,并根据所述频率分别将预处理后的待比对文本和基准文本转化为特征向量;采用向量空间模型算法计算所述待比对文本的特征向量和所述基准文本的特征向量的相似度值,并判断所述相似度值是否达到阈值;以及响应于所述相似度值达到阈值,将相似部分高亮显示。本发明通过对文本进行中文分词和剔除停用词,提高了文本相似度计算的精度,实现了对任意两段文本之间的相似度计算。
技术领域
本发明涉及人工智能领域,更具体地,特别是指一种计算文本相似度的方法、系统、设备和存储介质。
背景技术
伴随着信息和计算机技术在现代社会的广泛应用和普及,各种各样的信息充斥在人们的周围,并在不断地扩大和膨胀。虽然信息爆炸给人类提供了更多便利的条件,但同时也带来了信息冗余和信息过量等诸多困扰人们的问题。
面对这些海量信息,近年来论文抄袭成为长时间困扰学术界的严重问题之一,面对论文文档抄袭对社会的严重影响,很多国内外学者进行了大量相关文本分析的研究,尤其在人工智能领域的中文文本分类,文本分类积累了大量的技术实现方法,主要分为“基于传统机器学习的文本分类”和“基于深度学习的文本分类”。目前中文的文本分类技术和流程主要有:文本预处理、中文分词、构建词向量空间、权重测量(TF-IDF)、分类器、评价分类结果等步骤。基于人工智能领域的文本分析较多,但是应用于论文相似度的研究较少,而且多是针对于短文本的相似度分析,缺少定制化的检测工具,对于简单结构的长文本的论文文档(包含题目、摘要、关键词、正文、参考文献5项基本内容)相似度分析研究较少,此外人工进行文档相似度查看需要耗费大量的时间和精力,缺少定制化、针对性的检测工具,因此亟需基于人工智能领域的中文文本分类算法,研究一种基于长文本的相似度计算方法以及定制化的检测系统,从而能够提供准确的相似度对比结果以及便捷的工具,有效地避免人工对比论文时存在的查全率不高、效率低下、工作量大等问题。
目前关于文本相似度的研究主要集中在文本查重中涉及的各种算法的研究,例如:中文分词算法、向量空间模型、欧几里得距离、皮尔逊相关系数等。而且在人工智能领域对于文本的分类算法也有很多,例如朴素贝叶斯、逻辑回归、支持向量机和随机森林、以及深度学习中的LSTM(Long Short-Term Memory)长短期记忆网络等。因此有关文本相似度的算法研究目前比较成熟,但是关于将人工智能领域的文本分类算法应用在文本查重中的实际案例相对较少,尤其针对于论文查重等特殊性的需求,缺少比较实用的定制化检测工具,而且对于长文本的相似度研究较少。
发明内容
有鉴于此,本发明实施例的目的在于提出一种计算文本相似度的方法、系统、计算机设备及计算机可读存储介质,本发明通过对文本进行中文分词和剔除停用词,提高了文本相似度计算的精度,实现了对任意两段文本之间的相似度计算,设置了相似度阈值,并实现了对相似度结果的排序,可根据对相似或重复内容的突出显示,直观了解不同文本之间的相似程度。
基于上述目的,本发明实施例的一方面提供了一种计算文本相似度的方法,包括如下步骤:分别将待比对文本和基准文本进行预处理;统计每个词语分别在所述待比对文本和所述基准文本中的频率,并根据所述频率分别将预处理后的待比对文本和基准文本转化为特征向量;采用向量空间模型算法计算所述待比对文本的特征向量和所述基准文本的特征向量的相似度值,并判断所述相似度值是否达到阈值;以及响应于所述相似度值达到阈值,将相似部分高亮显示。
在一些实施方式中,所述分别将待比对文本和基准文本进行预处理包括:分别将待比对文本和基准文本划分成段落,将段落划分成句子,将经过处理得到的每一个句子进行中文分词,并将每一个句子中的停用词进行删除。
在一些实施方式中,所述将经过处理得到的每一个句子进行中文分词包括:每次取最末端的预设数量个字符作为匹配字段,将所述匹配字段与分词词典中的词条进行匹配;以及响应于匹配成功,将所述匹配字段作为词语进行保留。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111240614.3/2.html,转载请声明来源钻瓜专利网。