[发明专利]计算文本间相似度的方法和装置有效
申请号: | 201210126862.X | 申请日: | 2012-04-26 |
公开(公告)号: | CN103377239B | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 高小平;宋国龙;田国刚 | 申请(专利权)人: | 深圳市世纪光速信息技术有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/247;G06F16/35 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 申健 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算 文本 相似 方法 装置 | ||
本发明实施例公开了一种计算文本间相似度的方法和装置,涉及计算机文本信息处理领域,能够提高文本间语义相似度计算的准确性。本发明实施例的计算文本间相似度的方法,包括:根据归一化模板对待分析的第一文本和第二文本进行归一化处理,以使意义相同的词语或词组统一为同一个词语或词组;查询归一化后的所述第一文本和第二文本位于同一个近义词聚类中的近义词,并获取所述近义词的语义相似度;获取所述第一文本和第二文本中各个词语或词组的权重;根据所述近义词的语义相似度、所述权重和预设的语义相似度模型,计算所述第一文本和第二文本的相似度。
技术领域
本发明涉及计算机文本信息处理领域,尤其涉及一种计算文本间相似度的方法和装置。
背景技术
文本相似度计算技术是计算机文档处理中经常使用的方法,常用在文档分类、聚类、文档检索相关性等应用中,用来比较两个文档的相似度。随着计算机对文本信息等各种自然语言处理应用的普及,人们需要一个有效且准确的方法来计算两个文本或句子之间的文本相似度,即计算机文本相似度计算方法。
按处理的文档长度可以将文档分为两类:长文档与短文本。一般的,长文档是指词个数达到几十或更长的一篇文档,例如网页新闻报告、使用说明书等;短文本是指词个数在20以内的短的文档,例如用户提出的查询、新闻快讯、一条微博等。尤其,短文本相似度的计算具有十分重要的作用,它的应用能极大地提高系统自动问答的精度。
现有技术中,文本相似度计算方法通过对文本用其词频向量表示,然后计算词频向量间的距离得到文本相似度。然而,现有技术方案通常只考虑到两个文本间相同的词与其词权重,但由于语言的灵活性,经常发生多个语句意义相同的情况,仅考虑相同词会忽略近义词、同义词和同一个意思不同说法等因素的影响,因此,相似度计算容易出现计算失真。
发明内容
本发明的实施例所要解决的技术问题在于提供一种计算文本间相似度的方法和装置,能够准确计算文本间的相似度。
为解决上述技术问题,本发明的实施例采用如下技术方案:
一种计算文本间相似度的方法,包括:
根据归一化模板对待分析的第一文本和第二文本进行归一化处理,以使意义相同的词语或词组统一为同一个词语或词组;
查询归一化后的所述第一文本和第二文本位于同一个近义词聚类中的近义词,并获取所述近义词的语义相似度;
获取所述第一文本和第二文本中各个词语或词组的权重;
根据所述近义词的语义相似度、所述权重和预设的语义相似度模型,计算所述第一文本和第二文本的相似度。
一种计算文本间相似度的装置,包括:
归一化单元,用于根据归一化模板对待分析的第一文本和第二文本进行归一化处理,以使意义相同的词语或词组统一为同一个词语或词组;
语义相似度获取单元,用于查询归一化后的所述第一文本和第二文本位于同一个近义词聚类中的近义词,并获取所述近义词的语义相似度;
权重获取单元,用于获取所述第一文本和第二文本中各个词语或词组的权重;
相似度计算单元,用于根据所述近义词的语义相似度、所述权重和预设的语义相似度模型,计算所述第一文本和第二文本的相似度。
本实施例的计算文本间相似度的方法和装置,首先通过将待分析的第一文本和第二文本进行归一化处理,以使意义相同的词语或词组统一为同一个词语或词组,并将拆分后的词语或词组分别映射到归一化模板中,避免了现有技术仅比较字面相似度,不能解决因相同意思不同表达而导致误判的问题,大大减小了因匹配的二义性而造成的错误率,此外,本发明通过近义词聚类来获取近义词的语义相似度,所得到的数据更为准确,并且在计算文本间的语义相似度时,不受文本长短的限制,适用范围广,准确度高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市世纪光速信息技术有限公司,未经深圳市世纪光速信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210126862.X/2.html,转载请声明来源钻瓜专利网。