[发明专利]一种文本相似度评估方法及装置有效

申请号：	201510125905.6	申请日：	2015-03-20
公开（公告）号：	CN105488023B	公开（公告）日：	2019-01-11
发明（设计）人：	梁捷;尹兵	申请（专利权）人：	广州爱九游信息技术有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京超凡志成知识产权代理事务所(普通合伙) 11371	代理人：	吴开磊
地址：	510665 广东省广州市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本相似评估方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文本相似度评估方法及装置，所述方法包括：将待评估的两个目标文本分别按语句单元进行分词得到分词集合后，从所述分词集合中再筛选有效分词集合；统计所述有效分词集合包含的词分别在两个目标文本中出现的次数，根据所述次数计算所述目标文本的向量余弦值，根据向量余弦值确定所述目标文本的相似度。所述方法在对语句单元进行分词的基础上进一步对语句单元对应的多个分词结果进行最优化筛选，从而筛选出该语句单元对应的一个有效分词集合，从而提高了分词结果的准确性；此外通过计算目标文本的向量余弦值，并根据所述向量余弦值确定目标文本的相似度的评估算法，与逐词比较的评估方法相比，运算速度得到了显著提高。

技术领域

本发明涉及移动通信技术领域，特别是涉及一种文本相似度评估方法及装置。

背景技术

随着通信及网络技术的飞速发展，互联网成为用户发布信息及获取信息的重要平台。在海量的互联网文本信息中，有些文本信息在主题或内容上彼此具有很高的相似性或相关性，导致信息的冗余性很高。因此需要通过相似度评估的方法对这些文本信息进行相似程度评估，进而对其进行去重、归类，以便更准确、高效的管理这些信息资源。

现有的文本相似度的评估方法一般是基于逐词比较的方法，即将待比较的两个文本信息分别切分成词(或称为字符串)，再对这两个文本包含的词逐个进行比较，以共同包含的词在总词中所占的比例作为衡量这两个文本的相似程度的标准。

然而，这种方法一方面在对文本分词时准确性较差，另一方面采用逐词比较方法的计算效率也较低。

发明内容

本发明实施例提供了一种文本相似度评估方法及装置，以解决现有的文本相似度评估方法的准确性差和计算效率较低的问题。

为了解决上述技术问题，本发明实施例公开了如下技术方案：

一方面，提供了一种文本相似度评估方法，所述方法包括：

将待评估的两个目标文本分别按语句单元进行分词得到分词集合后，从所述分词集合中再筛选有效分词集合；

统计所述有效分词集合包含的词分别在所述两个目标文本中出现的次数，根据所述次数计算所述目标文本的向量余弦值，根据所述向量余弦值确定所述目标文本的相似度。