[发明专利]一种基于语义的相似度计算方法和装置有效
申请号: | 201110236902.1 | 申请日: | 2011-08-17 |
公开(公告)号: | CN102955772A | 公开(公告)日: | 2013-03-06 |
发明(设计)人: | 方高林;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 相似 计算方法 装置 | ||
【技术领域】
本发明涉及计算机技术领域,特别涉及一种基于语义的相似度计算方法和装置。
【背景技术】
随着计算机技术的不断发展,用户越来越依赖通过诸如搜索技术、问答平台或者热点新闻等获取信息。其中,会涉及到计算句子之间相似度的问题,例如,通过计算搜索结果与用户query之间的相似度确定搜索结果的排序;通过计算用户所输入问句与问答平台数据库中已有问题之间的相似度,找出用户所输入问句对应的答案;通过新闻页面的标题之间的相似度对各新闻页面进行聚类从而确定热点事件。
在现有的相似度计算方式中,仅通过计算两个句子之间的字面相似程度,但实际上,两个句子之间的相似度更多的体现在语义上。例如:句子“华中科技大学在湖北武汉那个地方”和“华科大在武汉市什么位置”,这两个句子中字面仅有“在”和“武汉”存在重合,如果采用现有的相似度计算方式计算得到的这两个句子之间的相似度很低,但实际上这两个句子在语义上是一致的,相似度应该很高。可见,现有的相似度计算方式准确性较差。
【发明内容】
有鉴于此,本发明提供了一种基于语义的相似度计算方法和装置,以便于提高所计算句子之间相似度的准确性。
具体技术方案如下:
一种基于语义的相似度计算方法,该方法包括:
A、获取待比较的句子S1和S2;
B、分别对所述S1和S2进行分词;
C、对所述分词后得到的各词语中存在语义映射的词语映射为归一化的表述;
D、计算经步骤C处理后的S1和S2之间的相似度Sim(S1,S2)。
所述步骤B中还包括:对分词后得到的各词语赋予权值;
所述步骤D具体包括:将所述S1分词后得到的各词语与所述S2分词后得到的各词语分别进行匹配,利用匹配成功的词语的权值以及句子类型匹配程度,计算所述S1和S2之间的相似度Sim(S1,S2);其中所述匹配成功为:词语表述相同或者词语映射到相同的归一化表述。
其中,所述步骤B具体包括:
B1、分别对所述S1和S2进行分词和词性标注;
B2、对分词后得到的各词语进行基于停用词表的过滤;
B3、对分词后得到的各词语赋予权值。
具体地,所述对分词后得到的各词语赋予权值包括:
对所述分词后得到的各词语进行倒文档率的统计,按照预设的倒文档率与权值之间的对应关系,分别对所述分词后得到的各词语赋予权值;或者,
按照预设的词性与权值之间的对应关系,分别对所述分词后得到的各词语赋予权值。
较优地,在所述步骤B之后且在所述步骤D之前还包括:
识别语义冗余的词语,并对语义冗余的词语进行降权处理;或者,
在构成偏正结构的词语中,对作为中心词的词语进行提权处理或者对作为修饰词的词语进行降权处理。
其中,所述识别语义冗余的词语具体包括:将所述S1分词后得到的各词语和所述S2分词后得到的各词语分别与预设的语义模板进行匹配,通过匹配到的语义模板识别出在一个句子中同时出现的上位和下位的词语,将所述上位的词语识别为语义冗余的词语。
更进一步地,该方法还包括:
预先将具有相同语义但不同表述的词语组成一个簇,并从该簇中选择一个词语作为该簇的归一化表述,该簇中所有的词语都语义映射到所述归一化表述。
如果所述S1和S2均为问句,则在所述步骤D之前还包括:识别所述S1和S2的问句类型;
所述句子类型匹配程度体现所述S1和S2是否属于同一问句类型。
其中,识别问句的问句类型的方式具体包括:
识别问句中的疑问词,按照预设的疑问词与问句类型之间的对应关系,确定问句的问句类型;或者,
识别问句中的疑问词以及该疑问词上下文出现的名词,根据预设的名词和疑问词的组合与问句类型之间的对应关系,确定问句的问句类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110236902.1/2.html,转载请声明来源钻瓜专利网。