[发明专利]一种基于语义的相似度计算方法和装置有效
申请号: | 201110236902.1 | 申请日: | 2011-08-17 |
公开(公告)号: | CN102955772A | 公开(公告)日: | 2013-03-06 |
发明(设计)人: | 方高林;王海峰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 相似 计算方法 装置 | ||
1.一种基于语义的相似度计算方法,其特征在于,该方法包括:
A、获取待比较的句子S1和S2;
B、分别对所述S1和S2进行分词;
C、对所述分词后得到的各词语中存在语义映射的词语映射为归一化的表述;
D、计算经步骤C处理后的S1和S2之间的相似度Sim(S1,S2)。
2.根据权利要求1所述的方法,其特征在于,所述步骤B中还包括:对分词后得到的各词语赋予权值;
所述步骤D具体包括:
将所述S1分词后得到的各词语与所述S2分词后得到的各词语分别进行匹配,利用匹配成功的词语的权值以及句子类型匹配程度,计算所述S1和S2之间的相似度Sim(S1,S2);其中所述匹配成功为:词语表述相同或者词语映射到相同的归一化表述。
3.根据权利要求2所述的方法,其特征在于,所述步骤B具体包括:
B1、分别对所述S1和S2进行分词和词性标注;
B2、对分词后得到的各词语进行基于停用词表的过滤;
B3、对分词后得到的各词语赋予权值。
4.根据权利要求2或3所述的方法,其特征在于,所述对分词后得到的各词语赋予权值包括:
对所述分词后得到的各词语进行倒文档率的统计,按照预设的倒文档率与权值之间的对应关系,分别对所述分词后得到的各词语赋予权值;或者,
按照预设的词性与权值之间的对应关系,分别对所述分词后得到的各词语赋予权值。
5.根据权利要求2所述的方法,其特征在于,在所述步骤B之后且在所述步骤D之前还包括:
识别语义冗余的词语,并对语义冗余的词语进行降权处理;或者,
在构成偏正结构的词语中,对作为中心词的词语进行提权处理或者对作为修饰词的词语进行降权处理。
6.根据权利要求5所述的方法,其特征在于,所述识别语义冗余的词语具体包括:将所述S1分词后得到的各词语和所述S2分词后得到的各词语分别与预设的语义模板进行匹配,通过匹配到的语义模板识别出在一个句子中同时出现的上位和下位的词语,将所述上位的词语识别为语义冗余的词语。
7.根据权利要求1所述的方法,其特征在于,该方法还包括:
预先将具有相同语义但不同表述的词语组成一个簇,并从该簇中选择一个词语作为该簇的归一化表述,该簇中所有的词语都语义映射到所述归一化表述。
8.根据权利要求2所述的方法,其特征在于,如果所述S1和S2均为问句,则在所述步骤D之前还包括:识别所述S1和S2的问句类型;
所述句子类型匹配程度体现所述S1和S2是否属于同一问句类型。
9.根据权利要求8所述的方法,其特征在于,识别问句的问句类型的方式具体包括:
识别问句中的疑问词,按照预设的疑问词与问句类型之间的对应关系,确定问句的问句类型;或者,
识别问句中的疑问词以及该疑问词上下文出现的名词,根据预设的名词和疑问词的组合与问句类型之间的对应关系,确定问句的问句类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110236902.1/1.html,转载请声明来源钻瓜专利网。