[发明专利]句子相似度计算方法和装置及系统有效
申请号: | 201710005472.X | 申请日: | 2017-01-04 |
公开(公告)号: | CN108268441B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 胡加学;孙胜杰;王道广;刘也宽 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/30;G06K9/62 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 句子 相似 计算方法 装置 系统 | ||
1.一种句子相似度计算方法,其特征在于,包括:
获取待计算相似度的句子对;
构建所述句子对中每个句子的依存句法树;
根据预先构建的句子相似度计算模型以及所述每个句子的依存句法树,计算所述句子对中句子之间的相似度;
所述句子相似度计算模型的拓扑结构包括:
输入层,用于输入句子对中每个句子的依存句法树;
卷积层,用于根据所述每个句子的依存句法树,分别计算每个句子的语义单元矩阵;
池化层,用于根据所述每个句子的语义单元矩阵,分别计算每个句子的语义向量;
拼接层,用于根据所述每个句子的语义向量进行拼接,得到句子语义相似度拼接向量;
输出层,用于根据所述句子语义相似度拼接向量进行回归运算,得到所述句子对中句子之间的语义相似度;
其中,所述依存句法树包括多个节点,所述节点包括根节点和非根节点,每个非根节点表示所述依存句法树对应的句子中的一个词,且在得到所述词后还计算所述词的词向量,所述根据所述每个句子的依存句法树,分别计算每个句子的语义单元矩阵,包括:
对应每个句子的依存句法树,采用预设深度的卷积窗在所述依存句法树上滑动,依次获取所述依存句法树中每个节点对应的语义单元向量,以及,将所述依存句法树中所有节点对应的语义单元向量组成所述依存句法树对应的句子的语义单元矩阵;
其中,所述采用预设深度的卷积窗在所述依存句法树上滑动,依次获取所述依存句法树中每个节点对应的语义单元向量,包括:
将所述卷积窗在当前滑动位置所覆盖的节点依次作为当前处理的节点,根据当前处理的节点中各个节点表示的词的词向量进行卷积操作,将卷积操作后得到的结果作为当前处理的节点中第一层节点的语义单元向量,所述第一层节点为一个节点。
2.根据权利要求1所述的方法,其特征在于,还包括:构建句子相似度计算模型,所述构建句子相似度计算模型包括:
获取用于训练的句子对及其标注信息,所述标注信息包括所述用于训练的句子对中句子之间的相似度;
构建所述用于训练的句子对中每个句子的依存句法树;
根据所述用于训练的句子对中每个句子的依存句法树和所述标注信息进行模型训练,得到句子相似度计算模型。
3.根据权利要求1或2所述的方法,其特征在于,所述构建每个句子的依存句法树,包括:
对每个句子进行分词,得到每个句子中的词;
对所述每个句子中的词进行依存句法分析,确定词与词之间的依存关系;
根据每个句子中的词,以及词与词之间的依存关系构建每个句子的依存句法树。
4.根据权利要求1所述的方法,其特征在于,所述根据所述每个句子的语义单元矩阵,分别计算每个句子的语义向量,包括:
根据所述每个句子的语义单元矩阵,计算所述句子对中句子之间的注意力矩阵;
根据所述注意力矩阵计算每个句子的语义单元矩阵中每个语义单元向量的注意力权重;
根据所述每个语义单元向量及其注意力权重,计算每个句子的语义向量。
5.根据权利要求1所述的方法,其特征在于,所述根据每个句子的语义向量进行拼接,得到句子语义相似度拼接向量,包括:
根据每个句子的语义向量计算语义向量间的差值向量和语义向量间的乘积向量;
将所述每个句子的语义向量、所述差值向量和所述乘积向量拼接成句子语义相似度拼接向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710005472.X/1.html,转载请声明来源钻瓜专利网。