[发明专利]一种基于多任务联合的问题生成方法在审
申请号: | 202010236154.6 | 申请日: | 2020-03-30 |
公开(公告)号: | CN111488440A | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 蔡毅;黄清宝;傅明毅 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/34;G06F40/289;G06F40/237 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 裴磊磊 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 联合 问题 生成 方法 | ||
本发明公开了一种基于多任务联合的问题生成的方法,构建多任务联合的问题生成模型,问题生成模型包括摘要抽取模块和问题生成模块,问题生成模型采用seq2seq模型;所述方法包括步骤:利用抽取式摘要生成的方法抽取出给定文本的中心句子形成文本摘要;根据给定文本建立高频词词汇表和低频词词汇表;通过预训练好的Glove词嵌入方法将得到的文本摘要进行词向量表示;将得到的词向量表示输入到seq2seq模型的encode部分,再结合注意力机制将词向量编码为隐藏状态;通过Seq2Seq模型中的decode将得到的隐藏层状态解码为问题序列。本发明通过自动摘要的方法抽取出给定文本的中心句,再结合注意力机制、copy机制使得生成的问题更贴近文章中心。
技术领域
本发明涉及自然语言处理技术中的自然语言文本生成领域,尤其涉及一种基于多任务联合的问题生成方法。
背景技术
近年来关于文本生成中的问题生成的研究越来越多,现有的方法主要是针对单个文本生成固定简短的答案。目前广泛使用在自然语言文本生成的神经模型是基于序列到序列(seq2seq)模型,大部分研究也都是基于seq2seq模型进行修改。其主要思路是将上下文文本作为输入,同时将答案作为额外的输入来引导模型生成问题,以此来告知模型需要关注哪部分信息。
在实际阅读理解场景下,问题是根据给定上下文来回答的,答案可能不在某一段落中,它可能是跨越多个文本总结得到的,或者不能从上下文中直接得到答案,需要人为的组织上下文信息得到答案。文本生成是自然语言处理领域极具挑战的任务,而问题生成的方法需要理解整个给定的上下文并且捕捉文本中的重要信息,这些信息可能跨越一个文本的多个句子,甚至是多个文本的多个句子。同时也要特别关注一些比较重要的信息,一般都是一些高频词,数词。所以对于问题生成任务需要考虑到以上这些方面。
本发明提出了先对给定文本进行摘要提取,将文本中最重要的信息抽取出来,然后再对文摘进行提问,以此来生成与上下文内容最相关的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于多任务联合的问题生成方法。本发明通过自动文摘与seq2seq模型相结合的方法来生成与内容主题最相关且具有推理总结性的问题。本发明具体通过TextRank算法提取文本摘要,抽取出文本中包含重要信息的句子,并依据重要程度进行排序,再选取前T个最重要的句子形成摘要,然后构建用于拷贝低频词词汇表和用于生成高频词词汇表,再将上下文用Glove嵌入表示词向量和BIO标记将二者拼接起来作为最终编码器的输入。本发明在编码器中应用了注意力机制,使得模型能够关注输入的重要信息,编码器的输入是上述的拼接向量,输出为隐藏层状态,然后将编码器的隐藏层状态输入到解码器中,结合拷贝机制依次迭代输出问题序列。
本发明的目的能够通过以下技术方案实现:
一种基于多任务联合的问题生成方法,包括步骤:
构建多任务联合的问题生成模型,问题生成模型包括摘要抽取模块和问题生成模块,问题生成模型采用seq2seq模型;
利用抽取式摘要生成的方法抽取出给定文本的中心句子形成摘要;
根据给定文本建立高频词词汇表V和低频词词汇表L;
通过预训练好的Glove词嵌入方法将得到的摘要进行词向量表示,输入到问题生成模块;
将从得到的词向量表示输入到seq2seq模型中的encode部分,再结合注意力机制将词向量编码为隐藏状态ct;
通过Seq2Seq模型中的decode部分将得到的隐藏状态ct解码为问题序列。
多任务联合的问题生成模型中,得到的最终输出为与上下文相关的问题序列。
本发明相较于现有技术,具有以下的有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010236154.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:报警控制方法及相关产品
- 下一篇:腹直肌分离测量工具