[发明专利]基于全局优化关键词质量的文本相似度求解算法在审

申请号：	201610939853.0	申请日：	2016-11-01
公开（公告）号：	CN106598940A	公开（公告）日：	2017-04-26
发明（设计）人：	金平艳	申请（专利权）人：	四川用联信息技术有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	610054 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于全局优化关键词质量文本相似求解算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及语义网络技术领域，具体涉及基于全局优化关键词质量的文本相似度求解算法。

背景技术

文本相似度计算可以应用到文本分类、文本聚类、信息检索、问答系统、网页去重等很多领域。目前,在不同领域，很多相似度计算方法被提出并应用于实践。如向量空间模型、布尔模型、隐含语义标引模型等统计模型、字符串匹配模型、基于语义理解的模型等。可以发现，如今越来越多的专家学者研究文本相似度的计算，这是因为文本相似度的有效计算可以起到提高检索效率、避免文章票窃、节省存储空间等作用。在文本相似度计算领域仍然存在不少问题需要人们解决，尤其是对中文文本相似度的研究,目前还没发展到令人满意的程度。用计算机来实现自然语言理解，中文比英文更加难以处理。中文不像英文那样词与此之间有明显的分隔标记，它用多个连续的字词一起表达一个意思，根据上下文语境的不同，还容易引起歧义，怎样提高文本相似度计算的有效性和准确性，基于上述需求，本发明提供了一种基于全局优化关键词质量的文本相似度求解算法。

发明内容

针对于文本相似度计算的有效性和准确性的不足，本发明提供了一种基于全局优化关键词质量的文本相似度求解算法。

为了解决上述问题，本发明是通过以下技术方案实现的：

步骤1：利用中文分词技术对两文本(W₁，W₂)进行分词处理；

步骤2：根据停用表对文本词汇进行去停用词处理；

步骤3：去停用词操作后的文本关键词集合为C＝(C₁，C₂，…，C_n)，每个关键词C_i在文本中的贡献值看成一个多维向量，即

步骤4：利用约束条件，在多维空间进行关键词特征集合降维处理，最后提取到最优化的文本关键词集合J₁、J₂；

步骤5：计算两关键词集合J₁、J₂中权重最大的两词间的相似性；

步骤6：两关键词集合J₁、J₂中求解两两词汇间的相似度，设定一个词汇间相似度的阈值，根据满足条件的词汇个数，来计算两文本间的相似度sim(W₁，W₂)。

本发明有益效果是：

1、此方法比传统的词频-反文档频率方法得到的特征词汇集合的准确度更高。

2、此方法克服了信息增益方法只适合用来提取一个类别的文本特征的缺点。