[发明专利]基于混合专家模型的复杂度可控的多样化问题生成方法在审
申请号: | 202110099300.X | 申请日: | 2021-01-25 |
公开(公告)号: | CN112668344A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 毕胜;程茜雅;漆桂林 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F40/211;G06N3/04;G06N3/08 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 张天哲 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 混合 专家 模型 复杂度 可控 多样化 问题 生成 方法 | ||
本发明公开了一种基于混合专家模型的复杂度可控的多样化问题生成方法,主要用于生成与文本相关的满足复杂度要求的自然语言问题。本发明以现有问答数据集中海量的问题数据为起点,提出了一种新型的问题复杂度评估方式,该方法由6个复杂度评估指标组合而成。并用该复杂度评估方式对现有数据集进行难度标注,作为模型的训练集、验证集和测试集。使用双向LSTM网络对给定文本和答案进行编码,得到对应的语义表示并拼接起来。使用LSTM网络对编码结果进行解码,生成问题。在解码过程中使用隐向量建模不同复杂度的问题模板,从而指导满足给定复杂度的问题生成。并使用混合专家模型选择不同的文本内容,从而生成不同的问题,提升问题生成的多样性。
技术领域
本发明属于自然语言处理领域,涉及一种混合专家模型的复杂度可控的多样化问题生成方法。
背景技术
近年来,随着人工智能的快速发展,自然语言处理技术得到了越来越广泛的应用。自然语言处理分为自然语言理解和自然语言生成两大部分。其中,问题生成(QuestionGeneration,QG)任务是自然语言生成中的典型任务。问题生成指的是从一系列数据源中(例如文本、图片、知识库)自动生成自然语言问题。问题生成任务的应用前景十分广阔,例如,在人机交互领域,通过提问与用户产生对话的聊天机器人(Siri、微软小冰等);在教育领域,通过根据课程材料生成问题对学生的水平进行测试,了解学生对知识的掌握程度;另外,作为自动问答的对偶任务,QG任务可以通过生成大量高质量的问题,为训练QA模型提供大规模数据集,从而提升QA模型的效果。
目前问题生成的工作主要集中在阅读理解领域,以事实文本为依据,针对给定答案生成一个自然语言表述的问题。传统的QG方法主要利用手工构建的规则模板并结合人工标注完成,这种方式十分耗费人力物力,并且通过模板生成的问题缺乏自然性和多样性。随着深度学习技术的发展,受序列到序列(Seq2seq)模型在机器翻译等文本生成任务的研究的启发,结合深度学习的QG方法研究也受到了学者们的广泛关注。使用端到端的深度神经网络模型不仅能够有效提升生成问题的自然性和多样性,而且能够达到较好的生成效果。但是当前基于深度学习的QG方法主要研究简单问题的生成,而很少有研究复杂问题生成的工作。复杂问题的生成也具有很多现实意义,例如,在教育领域,因为不同的学生接受知识的能力也不同,如果一味的生成简单问题,难以测试出学生的真实水平。对于能力强的学生,需要用复杂问题进行测试才能得到真实的反馈。另外,现有问答(Question Answering,QA)系统在简单问题上的表现已经达到了瓶颈,而复杂问题更有利于提升QA系统。而大多数现有工作无法控制所生成问题的复杂性,因此,研究复杂问题生成具有一定的实用价值和应用前景。
基于此,本工作提出一种基于混合专家模型的复杂度可控的问题生成模型。主要用于给定文本、答案和复杂度指标的情况下生成与文本相关的,可被答案回答的,并且满足复杂度要求的、多样化的自然语言问题。
发明内容
技术问题:本发明要解决的技术问题在于针对缺乏复杂度可控问题的研究,难以进行复杂度评估和复杂度建模,提供一种基于混合专家模型的复杂度可控的多样化问题生成方法。
技术方案:本发明解决其技术问题所采用的技术方案是:一种基于混合专家模型的复杂度可控的多样化问题生成方法。该方法以现有问答数据集中海量的问题数据为起点,提出了一种新型的问题复杂度评估方式,该方法由6个复杂度评估指标组合而成。并用该复杂度评估方式对现有数据集进行难度标注,作为本发明提出模型的训练集、验证集和测试集。使用双向LSTM网络对给定文本和答案进行编码,得到对应的语义表示并拼接起来。使用LSTM网络对编码结果进行解码,生成问题。在解码过程中使用隐向量建模复杂度因素,从而指导满足给定复杂度的问题生成。并使用混合专家模型选择不同的文本内容,从而生成不同的问题,提升问题生成的多样性。
本发明的基于混合专家模型的复杂度可控的多样化问题生成方法包括如下步骤:
1)挖掘问答数据集特征,提出一种自适应的问题复杂度的衡量方法;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110099300.X/2.html,转载请声明来源钻瓜专利网。