[发明专利]一种基于语义的相似度计算方法和装置有效

申请号：	201110236902.1	申请日：	2011-08-17
公开（公告）号：	CN102955772A	公开（公告）日：	2013-03-06
发明（设计）人：	方高林;王海峰	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京鸿德海业知识产权代理事务所(普通合伙) 11412	代理人：	袁媛
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于语义相似计算方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

【技术领域】

本发明涉及计算机技术领域，特别涉及一种基于语义的相似度计算方法和装置。

【背景技术】

随着计算机技术的不断发展，用户越来越依赖通过诸如搜索技术、问答平台或者热点新闻等获取信息。其中，会涉及到计算句子之间相似度的问题，例如，通过计算搜索结果与用户query之间的相似度确定搜索结果的排序；通过计算用户所输入问句与问答平台数据库中已有问题之间的相似度，找出用户所输入问句对应的答案；通过新闻页面的标题之间的相似度对各新闻页面进行聚类从而确定热点事件。

在现有的相似度计算方式中，仅通过计算两个句子之间的字面相似程度，但实际上，两个句子之间的相似度更多的体现在语义上。例如：句子“华中科技大学在湖北武汉那个地方”和“华科大在武汉市什么位置”，这两个句子中字面仅有“在”和“武汉”存在重合，如果采用现有的相似度计算方式计算得到的这两个句子之间的相似度很低，但实际上这两个句子在语义上是一致的，相似度应该很高。可见，现有的相似度计算方式准确性较差。

【发明内容】

有鉴于此，本发明提供了一种基于语义的相似度计算方法和装置，以便于提高所计算句子之间相似度的准确性。

具体技术方案如下：

一种基于语义的相似度计算方法，该方法包括：

A、获取待比较的句子S₁和S₂；

B、分别对所述S₁和S₂进行分词；

C、对所述分词后得到的各词语中存在语义映射的词语映射为归一化的表述；

D、计算经步骤C处理后的S₁和S₂之间的相似度Sim(S₁，S₂)。

所述步骤B中还包括：对分词后得到的各词语赋予权值；

所述步骤D具体包括：将所述S₁分词后得到的各词语与所述S₂分词后得到的各词语分别进行匹配，利用匹配成功的词语的权值以及句子类型匹配程度，计算所述S₁和S₂之间的相似度Sim(S₁，S₂)；其中所述匹配成功为：词语表述相同或者词语映射到相同的归一化表述。

其中，所述步骤B具体包括：

B1、分别对所述S₁和S₂进行分词和词性标注；