[发明专利]语句等价性判断方法和装置有效
申请号: | 201910832807.4 | 申请日: | 2019-09-04 |
公开(公告)号: | CN110633359B | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 王然;苏海波;孙伟;刘钰;杜晓梦;刘译璟 | 申请(专利权)人: | 北京百分点科技集团股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/211;G06N3/04 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许振新 |
地址: | 100096 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 等价 判断 方法 装置 | ||
1.一种语句等价性判断方法,其特征在于,包括:
获取待判断等价性的语句;
将所述语句输入预先训练的等价性判断模型,所述等价性判断模型根据基于深度学习模型和人工特征模型的模型平均方法训练得到;
通过所述等价性判断模型对所述语句进行等价性判断,得到等价性判断结果;
其中,所述人工特征模型基于如下人工特征:句法特征、语法特征和主题特征;
(1)句法特征具体包括以下特征:
句子长度;
句子长度差;
句向量间距离;
句向量偏斜度;
句向量峰度;
动词表示句向量及名词表示句向量的余弦相似度;
tf-idf表示的句向量的统计值;
tf-idf表示的句向量的余弦相似度;
中心词词向量的余弦相似度;
(2)词法特征具体包括以下特征:
数目差;
句子中共有词数目;
句子间共有词及共有停用词差;
句子间共有词占两个句子所有词的比例;
词性;
用模糊字符串匹配计算的模糊相似度;
词移距离;
等价句中共现的词表;
句中共有词的tf-idf值之和与全部词的tf-idf值这的比值;
(3)主题特征具体包括以下特征:
主题分布的句向量的余弦相似度。
2.如权利要求1所述的方法,其特征在于,通过以下方式训练得到所述等价性判断模型,包括:
使用训练数据分别训练组合模型和人工特征模型,所述组合模型包括至少两个不同的深度学习模型;
将训练数据分别输入训练后的所述组合模型和所述人工特征模型,得到所述训练数据的预测结果;
通过所述训练数据的预测结果拟合逻辑回归模型,对所述组合模型和所述人工特征模型进行模型平均得到所述等价性判断模型。
3.如权利要求2所述的方法,其特征在于,所述深度学习模型包括:基于Transformer的双向编码器表示模型BERT、基于注意力用于句子建模的卷积神经网络模型ABCNN、双边多视角自然语言句子匹配模型BIMPM和匹配金字塔模型MatchPyramid;
所述组合模型包括:BERT连接ABCNN的组合模型、BERT连接BIMPM的组合模型以及BERT连接MatchPyramid的组合模型;
所述人工特征模型包括Boosting模型。
4.如权利要求3所述的方法,其特征在于,所述使用训练数据训练组合模型,包括:
使用训练数据对所述组合模型中的ABCNN、BiMPM、MatchPyramid分别进行拟合;
对拟合后的所述组合模型进行微调,得到训练后的所述组合模型。
5.如权利要求2所述的方法,其特征在于,所述使用训练数据分别训练组合模型和人工特征模型,包括:
将训练数据分为n个数据集t1-tn,依次使用t1-tn之一作为验证集,其余数据集作为训练集;
使用所述数据集t1-tn对组合模型和人工特征模型进行n折交叉验证训练。
6.如权利要求5所述的方法,其特征在于,所述将所述训练数据分别输入训练后的所述组合模型和所述人工特征模型,得到所述训练数据的预测结果,包括:
将所述数据集t1-tn分别输入训练后的所述组合模型和所述人工特征模型,得到所述组合模型和所述人工特征模型分别对应的预测结果;
将所述组合模型对应的预测结果合并,得到所述训练数据对应于所述组合模型的预测结果;
将所述人工特征模型对应的预测结果合并,得到所述训练数据对应于所述人工特征模型的预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司,未经北京百分点科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910832807.4/1.html,转载请声明来源钻瓜专利网。