[发明专利]一种半监督学习结合集成学习的问题等价性判别的方法有效
申请号: | 201910236751.6 | 申请日: | 2019-03-27 |
公开(公告)号: | CN110008323B | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 苏萌;王然;苏海波;崔丙剑;刘钰;高体伟 | 申请(专利权)人: | 北京百分点科技集团股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 刘昕;南霆 |
地址: | 100081 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种半监督学习结合集成学习的问题等价性判别的方法,包括S1、同义词归一化:1)词向量嵌入;2)词语相似度判断;3)人工判断;S2、语义等价性识别:基于LSTM的对偶网络的计算;基于CNN的对偶网络模型的计算;基于Match Pyramid模型的计算;人工提取特征。本发明通过半监督的方式生成并引入同义词,从而使得整个系统可以根据具体领域进行灵活调整,并通过集合学习四种不同模型对问题的语义等价性进行判断,从而发挥不同模型的优势。 | ||
搜索关键词: | 一种 监督 学习 结合 集成 问题 等价 别的 方法 | ||
【主权项】:
1.一种半监督学习结合集成学习的问题等价性判别的方法,其特征在于,包括如下步骤:S1、同义词归一化:识别出目标问答系统中待进行等价性判别的两个问题中的同义词并将同义词替换为相同的词语;其中,识别同义词具体为:1)词向量嵌入:采用CROW或者Skip‑gram方法进行词向量嵌入及训练,得到两个问题的词语的词向量;2)词语相似度判断:根据词向量嵌入得到两个问题的词语的词向量后,据此计算词语相似度,当两个词语的相似度超过设定的阈值时,判断为同义词;3)人工判断:人工判断是否所构造的同义词当中是否有覆盖非同义词及是否有遗漏的同义词;S2、语义等价性识别:对经过步骤S1处理的两个问题,通过集成学习判断所给定的两个问题在语义上是否等价;具体为:2.1、基于LSTM的对偶网络的计算:首先计算了两个问题的词语的词向量,并将每个问题的词向量分别输入到对应的LSTM网络中;然后取用LSTM网络的最终输出作为对应问题的编码结果;最后分别计算两个问题的编码结果之间的余弦距离和欧氏距离;2.2、基于CNN的对偶网络模型的计算:首先计算两个问题的词语的词向量,然后对每一个问题构建由卷积层和池化层构成的卷积神经网络,并将其输出作为对应问题的编码结果;在得到编码结果后,计算两个问题的编码结果之间的余弦距离和欧氏距离;2.3、基于Match Pyramid模型的计算:首先基于Match Pyramid模型对两个问题中的词语的词向量进行两两组合并计算各个组合的Pearson相关系数;在得到了两个问题中两两组合的词语的Pearson相关系数后,采用卷积神经网络进一步对相似度提取深度特征;最后将经过卷积神经网络提取的特征作为等价性判别的基础;2.4、人工提取特征:1)基本统计特征:包括两个问题的长度、两个问题的长度差、两个问题分词后的长度、两个问题分词后的长度差、两个问题共有的词语的数量;2)基于模糊匹配的特征:包括两个问题词语完全相同的概率、词语子串相同的比率、词语去重后子串相同的比率、词语排序后子串相同的比率、词语去重后完全相同的比率、词语排序后完全相同的比率;3)基于TF‑IDF的特征:包括两个问题各自的TF‑IDF值之和、两个问题各自的TF‑IDF值的平均值;4)基于词向量的特征:把两个问题的词语的词向量加和求平均得到每个问题的句向量,然后计算句向量之间的多种距离,包括句向量的余弦距离、曼哈顿距离、杰卡德相似系数、坎贝拉距离、欧氏距离、闵氏距离、Braycurtis distance;2.5、将步骤2.1中两个LTSM网络输出的编码结果的余弦距离和欧氏距离、步骤2.2中两个卷积神经网络输出的编码结果的余弦距离和欧氏距离、步骤2.3中卷积神经网络提取的特征和步骤2.4中人工提取的特征通过全连接层结合在一起,然后通过梯度后向迭代方法直接进行训练,得到最终的判别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百分点科技集团股份有限公司,未经北京百分点科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910236751.6/,转载请声明来源钻瓜专利网。