[发明专利]中文语句相似度计算方法、计算装置以及计算机存储介质在审

申请号：	201710265407.0	申请日：	2017-04-21
公开（公告）号：	CN106970912A	公开（公告）日：	2017-07-21
发明（设计）人：	杨鹏	申请（专利权）人：	北京慧闻科技发展有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京睿邦知识产权代理事务所(普通合伙)11481	代理人：	张丽新
地址：	100044 北京市西城区西***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	中文语句相似计算方法计算装置以及计算机存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明的实施例涉及一种基于语义的中文语句相似度计算方法、计算装置以及计算机存储介质。

背景技术

随着网络技术的发展和Internet上信息量的迅速增加，信息检索系统已成为网络信息平台中的一个重要组成部分。但是，传统的信息检索仅仅是基于语法层面上的简单匹配，缺乏信息资源统一的语义描述，存在着信息的误检、漏检等问题。为了使用户搜索到更加准确、全面的网络信息，信息检索中概念间的语义相似度计算具有重要的作用。

近几年来，很多学者都在不断地研究语义相似度的计算方法。在基于语义距离的概念相似性匹配基础上，全面考虑了概念之间的继承关系和语义距离关系，通过语义相似度来衡量概念间的匹配程度，但它没有考虑到概念自身所含有的信息量。

发明内容

本发明的实施例提供一种基于语义的中文语句相似度计算方法、基于语义的计算装置以及计算机存储介质，能够获得准确率高的语句相似度计算结果，当用于智能问答系统时，能够很好地匹配用户的问题。

一方面，本发明的实施例提供一种基于语义的中文语句相似度计算方法，包括：接受用户输入的问题A；对用户输入的问题A进行预处理；对经过预处理的用户输入的问题A进行分词；将用户输入的问题A与问题模板中的每个问题B进行匹配计算，获得用户输入的问题A与问题模板中的每个问题B之间的语句形态相似度score1和语义相似度score2；根据语句形态相似度score1和语义相似度score2计算获得用户输入的问题A与问题模板中的每个问题B之间的语句相似度score；从问题模板中选择与用户输入的问题A具有最高语句相似度的问题的答案推送给用户,其中语句相似度score和语句形态相似度score1和语义相似度score2满足公式：score＝a*score1+b*score2，a+b＝1。

示例性地，问题模板是通过对问题文件进行预处理、分词后生成的。

示例性地，预处理包括去除空格、去除标点符号以及过滤停留词。

示例性地，将用户输入的问题A与问题模板中的每个问题B进行匹配计算，获得用户输入的问题A与问题模板中的每个问题B之间的语句形态相似度score1包括：获得用户输入的问题A与问题模板中的每个问题B之间的编辑距离Dis(A,B)；根据编辑距离Dis(A,B)计算得到语句形态相似度score1，其中Max(A，B)为问题A和问题B的句子的最大长度，编辑距离指从一个以字符为单位的字符串转换为另一个字符串所需要的最小编辑操作的代价数。

示例性地，编辑操作包括插入、删除和替换，插入、删除和替换的代价数均为1。

示例性地，获得用户输入的问题A与问题模板中的每个问题B之间的编辑距离Dis(A,B)包括：获取分词后的问题A的词语个数n和问题B的词语个数m；创建m*n维的二维数组d(n,m)；初始化该二维数组d(n,m),其中d[0,0]＝0，d[0，i]＝i,1≦i≦m，d[j，0]＝j，1≦j≦n；计算并获得j≠0且i≠0时的任意d[i，j]得到赋值后的二维数组d(n,m)；将d[n,m]作为用户输入的问题A与问题模板中的每个问题B之间的编辑距离Dis(A,B)。

示例性地，计算并获得j≠0且i≠0时的任意d[i，j]得到赋值后的二维数组d(n,m)包括：利用删除操作由d[i][j-1]+删除操作的代价数计算得到d1[i，j]；利用插入操作由d[i-1][j]+插入操作的代价数计算得到d2[i，j]；利用替换操作由d[i-1][j-1]+替换操作的代价数计算得到d3[i，j]；将d1[i，j]、d2[i，j]和d3[i，j]取最小值而使得d[i，j]等于该最小值。

示例性地，获得用户输入的问题A与问题模板中的每个问题B之间的语义相似度score2包括：根据分词结果计算问题A和问题B中任意两个词语之间的词语相似度；对于问题A中的每个词语，选择问题B中的与该词语相似度最高的词语使得二者对应起来成为词语对；问题A或问题B中的没有建立对应关系的词语与空词语对应，该词语对的相似度为零；将所有词语对的相似度值相加后除以词语对的总对数而得到语义相似度score2。

示例性地，根据分词结果计算问题A和问题B中任意两个词语之间的词语相似度包括:利用知网来提取其丰富的语义信息；采用义原相似度计算公式计算义原相似度；利用义原相似度计算得到义项相似度；利用义项相似度得到词语相似度，所述义原相似度计算公式为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京慧闻科技发展有限公司，未经北京慧闻科技发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710265407.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于大数据和机器学习的防范电信诈骗系统及方法
下一篇：一种时间的提取方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]中文语句相似度计算方法、计算装置以及计算机存储介质在审

专利文献下载