[发明专利]一种结合知识库中的三元组和实体类型的生成问题方法在审
申请号: | 202010872496.7 | 申请日: | 2020-08-26 |
公开(公告)号: | CN112115687A | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 蔡毅;徐静云 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F40/166 | 分类号: | G06F40/166;G06F40/284;G06F40/30 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 知识库 中的 三元 实体 类型 生成 问题 方法 | ||
1.一种结合知识库中的三元组和实体类型的生成问题方法,其特征在于,所述方法包括以下步骤:
1)、利用三元组中头实体和尾实体对应的实体类型重构三元组模型:所述重构三元组模型的输入是三元组以及三元组中头实体和尾实体对应的实体类型,输出是一组基于实体类型的新三元组;
2)、利用预训练好的词向量Glove分别获得表示新三元组中每个元素的词向量以及表示训练集中三元组所对应的问题的词向量;
3)、通过一个由基于注意力机制的门控制循环神经单元构成的编码器编码新三元组的表示;
4)、通过一个由基于注意力机制的门控制循环神经单元构成的解码器解码,得到的新的表示新三元组的词向量序列,从而得到一组表示生成的问题的词向量序列;
5)、利用步骤4)中得到的词向量序列获得向量表示的词语,词向量序列是1个矩阵,这个矩阵中的每一列是1个向量,每个向量表示1个词语,每一个向量的长度等于整个词汇表中的词语个数,向量中最大维度对应的词语就是该向量表示的词语,最终将所有对应的词语组合起来就是生成的问题,将在生成的问题中出现的实体类型用对应的输入中的三元组中具体的实体替换掉,最终得到一个新的问题作为输出。
2.根据权利要求1所述的结合知识库中的三元组和实体类型的生成问题方法,其特征在于,所述步骤1)重构三元组模型的步骤包括:
1.1)、设原始的输入数据为E={E1,E2,E3,E4,E5}序列,其中E1和E3分别表示某个三元组中的头实体和尾实体,E2则表示E1和E3之间的定义的关系,E4和E5分别表示E1和E3所对应的的实体类型;
1.2)、将实体E1和E2组成二元组实体对(E1,E2),E1和E2表示数据集中每一条标注好的实体,用E1和E2所对应的实体类型进行替换,获得新三元组e={e1,e2,e3},其中e1=E4,e2=E2,e3=E5,
1.3)、在原始的输入数据中迭代执行步骤1.1)和步骤1.2),获得由三元组重构之后的新三元组组成的新数据集,最终按比例分为新的训练集、测试集、验证集。
3.根据权利要求1所述的结合知识库中的三元组和实体类型的生成问题方法,其特征在于,所述步骤2)具体的步骤包括:
2.1)、设输入到词向量模型的每条数据包括重构之后的新三元组e={e1,e2,e3}、重构之后的新三元组所对应的问题以及预训练好的词向量Glove;三元组所对应的问题为X={X1,X2,…,Xi}序列,其中Xi表示问题的第i个词;
2.2)、在词向量Glove中获得新三元组中每个元素对应的向量化表示以及问题中词语对应的向量化表示,将表示三元组中的元素的三个向量进行横向拼接得到一个矩阵来表示三元组,将表示问题中的每个词语的向量竖向拼接得到一个矩阵来表示问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010872496.7/1.html,转载请声明来源钻瓜专利网。