[发明专利]一种基于知识图谱和疑问词驱动的问题生成系统在审
申请号: | 202111475261.5 | 申请日: | 2021-12-06 |
公开(公告)号: | CN114168749A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 荣文戈;周世杰;欧阳元新;熊璋 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/335;G06F40/216;G06F40/30;G06K9/62 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 金怡;邓治平 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 疑问词 驱动 问题 生成 系统 | ||
1.一种基于知识图谱和疑问词驱动的问题生成系统,其特征在于,包括:
文本预处理模块,用于对文本进行预处理;
一跳知识图谱构造模块,用于基于预处理后的文本,构造一跳知识图谱;
注意力向量计算模块,用于计算基于一跳知识图谱的静态图注意力向量;
特征增强的编码器,通过首先将一跳知识图谱转化为一维静态词嵌入向量,接着将一维静态词嵌入向量与输入文本的词嵌入向量、输入文本的答案位置信息向量以及词汇特征信息向量拼接起来作为编码器的净输入,以增强编码器获取上下文语义信息的能力;
门控自注意力机制模块,用于以存储编码器部分额外的上下文语义信息,进一步扩充输入文本的上下文语义;
解码器,用于对编码器编码后的中间态一维向量进行解码,以输出最终的单词概率分布;
知识匹配模块;以生成语义更为相关的问题;
语义搜索空间匹配模块,用以计算问题和回答的语义相似度;
疑问词预测模块,用以预测输入文本对应的疑问词。
2.一种基于知识图谱和疑问词驱动的问题生成方法,其特征在于,包括以下步骤:
步骤(1)、对文本进行预处理;
步骤(2)、基于预处理后的文本,构造一跳知识图谱;
步骤(3)、计算基于一跳知识图谱的静态图注意力向量;
步骤(4)、构造特征增强的编码器,首先将一跳知识图谱转化为一维静态词嵌入向量,接着将一维静态词嵌入向量与输入文本的词嵌入向量、输入文本的答案位置信息向量以及词汇特征信息向量拼接起来作为编码器的净输入,以增强编码器获取上下文语义信息的能力;
步骤(5)、构造门控自注意力机制模块,以存储编码器部分额外的上下文语义信息,进一步扩充输入文本的上下文语义;
步骤(6)、构造解码器,用于对编码器编码后的中间态一维向量进行解码,以输出最终的单词概率分布;
步骤(7)、构造知识匹配模块;以生成语义更为相关的问题;
步骤(8)、构造语义搜索空间匹配模块,以计算问题和回答的语义相似度;
步骤(9)、构造疑问词预测模块,以预测输入文本对应的疑问词。
3.根据权利要求2所述的一种基于知识图谱和疑问词驱动的问题生成方法,其特征在于,所述步骤(1)、对文本进行预处理,具体步骤如下:
对文本格式进行统一的处理,首先将所有文本进行处理,删除前后和中间多余的空格,并剔除非英文字母符号;采用Global Vectors for Word Representation(GloVe)编码,将每个单词编码成一个多维度的词嵌入形式,GloVe的词表大小选取为NG,未登录词表示为UNK。
4.根据权利要求2所述的一种基于知识图谱和疑问词驱动的问题生成方法,其特征在于,所述步骤(2)、构造一跳知识图谱,具体步骤如下:
选用ConceptNet大规模常识图谱作为知识库,对于输入的文本,针对每一个单词,搜索其在常识图谱中的一跳节点,节点数量固定为60,采用一个兜底的三元组NOT_A_FACT去表示没有匹配到任何实体的三元组,得到由三元组构成的一跳知识图谱,同时,保留一跳知识图谱的副本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111475261.5/1.html,转载请声明来源钻瓜专利网。