[发明专利]一种基于知识图谱和疑问词驱动的问题生成系统在审
申请号: | 202111475261.5 | 申请日: | 2021-12-06 |
公开(公告)号: | CN114168749A | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 荣文戈;周世杰;欧阳元新;熊璋 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/335;G06F40/216;G06F40/30;G06K9/62 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 金怡;邓治平 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 疑问词 驱动 问题 生成 系统 | ||
本发明公开了一种基于知识图谱和疑问词驱动的问题生成系统,包括:文本预处理模块,用于对文本进行预处理;一跳知识图谱构造模块,用于基于预处理后的文本,构造一跳知识图谱;注意力向量计算模块,用于计算基于一跳知识图谱的静态图注意力向量;特征增强的编码器;门控自注意力机制模块,用于以存储编码器部分额外的上下文语义信息,进一步扩充输入文本的上下文语义;解码器,用于对编码器编码后的中间态一维向量进行解码,以输出最终的单词概率分布;知识匹配模块;语义搜索空间匹配模块,用以计算问题和回答的语义相似度;疑问词预测模块,用以预测输入文本对应的疑问词。
技术领域
本发明属于自然语言处理研究的技术领域,尤其是一种基于知识图谱和疑问词驱动的问题生成系统,基于知识图谱和疑问词驱动的问题生成模型可以让系统对输入文本的语义和对应的疑问词有着更为准确的预测。
背景技术
近年来,随着计算机硬件算力的巨幅提升和深度学习研究的深入推进,自然语言生成技术取得了极大的进展。问题生成技术作为自然语言生成(Natural LanguageGeneration,NLG)最为重要的环节之一,也取得了一定的成果,诞生了众多数据驱动的深度学习模型。随着人工智能应用的普及,人们对于人机问答的渴望越来越强烈,问题生成系统是人工智能,尤其是自然语言处理中最为复杂和和极具挑战性的一环。一方面,生成的问题必须能够抓住问答的主题和相关事实,另一方面,模型生成的问题必须具有高度的丰富性和多样性以确保高质量的用户体验。
知识图谱已被证明可以大幅提升自然语言处理(Natural Language Processing,NLP)模型的性能。在日常的聊天或者对话过程中,提问题是一种非常常见的场景。因此,生成一个恰当、有意义的问题,对于自动问答技术来说至关重要。问题生成,在问答任务中扮演着极为重要的角色,旨在根据给定的输入文本,生成与该段文本相关的问题,其在问答系统、对话系统、聊天机器人等领域有着广泛的应用。在日常闲聊中,抛出一个问题,往往能够确定聊天的主题,以便更好地进行后续的对话;在搜索引擎中,人们往往会输入一个问题,期待得到相关的答案和检索内容;在智能客服系统中,用户输入的关键字,系统会自动产生与之关联的问题,并提供用户检索,大大提高了客服的效率。近几年,诸多学者提出了各式各样的问题生成模型,然而,还是会出现语义不匹配的问题,尤其是问题的疑问词。疑问词正确与否,将直接决定一个问题的语义是否清晰和明确。比如针对地点“The ForbiddenCity”,生成的问题须以“where”开头,否则会出现语义不清晰、不模糊的问题,严重影响用户体验和模型性能。另一方面,问题的语义是否丰富,也是决定问题生成模型好坏的重要因素之一。在问答场景中,问题和答案往往都在讨论某一事物,具有一定的关联性,如针对答案“Ilike apples best ofall”,往往会围绕“fruit”进行提问。因此,将知识融合进问题生成模型,可以扩充输入文本的语义,以生成更加高质量的问题。
问题生成领域当前研究的难点主要在于:1)生成问题的语义不够丰富,往往容易生成枯燥和无聊的问题;2)模型容易生成不够贴切或错误的问题,如错误的疑问词、语义无关的问题等,从而引起歧义或者误会。综上所述,同时将外部知识和预测疑问词引入到问题生成系统中具有一定的前景,故选择此方向作为本发明的研究重点。
发明内容
本发明要解决的技术问题为:解决传统基于神经网络的问题生成系统中生成的问题过于通用且容易离题的问题,同时增强上下文的语义信息以及生成语义更为丰富的问题。通过基于一跳的图注意力机制并引入三种辅助任务来提升模型的性能,同时提高疑问词的预测准确率。问题生成系统的第一个核心要点就是如何生成切合问答语义的问题。与其他现有的问题生成系统模型比较,本发明生成的问题语义更为丰富,且更加贴近问答事实。其他问题生成系统往往会生成比较无聊、通用或者离题的问题,大大降低了用户体验。问题生成系统的第二个核心要点就是如何增强上下文语义,增强上下文语义可以使模型生成的问题更加真实。为此,通过引入一跳知识图谱的结构、知识匹配模块和语义搜索空间匹配模块来增强上下文的语义信息,最终达到提升系统性能的目的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111475261.5/2.html,转载请声明来源钻瓜专利网。