[发明专利]一个基于深度神经网络及强化学习的生成式机器阅读理解方法有效
申请号: | 201810131702.1 | 申请日: | 2018-02-09 |
公开(公告)号: | CN108415977B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 朱国轩;王家兵 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/289;G06F40/30;G06N3/04 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一个 基于 深度 神经网络 强化 学习 生成 机器 阅读 理解 方法 | ||
本发明公开了一个基于深度神经网络及强化学习的生成式机器阅读理解方法,该方法通过结合注意力机制的深层神经网络来对文本和问题进行编码,形成融合了问题信息的文本向量表示之后,再通过单向LSTM解码器进行解码,逐步生成对应的答案文本。本发明公开的阅读理解方法融合了抽取式模型和生成式模型的优点,采用多任务联合优化的方式进行训练,训练过程中同时还使用了强化学习方法,有利于生成更加准确而流畅的答案文本。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一个基于深度神经网络及强化学习的生成式机器阅读理解方法。
背景技术
机器阅读理解作为自然语言处理的一个子领域,在近年来受到了极高的关注的同时也取得了长足的发展。更丰富的数据以及更加多样、先进的模型的出现,使得机器能更好地处理自然语言文本输入,并在一定程度上能够就针对输入文本提出的相关问题作出回答。这对于构建更加高级的自然语言处理应用,如自动问答(QA)、对话系统(DialogueSystem),提供更加智能、高效、个性化的搜索引擎服务,乃至于构建真正的强人工智能,都具有重要的基础意义。
目前,主流的机器阅读理解技术研究大多数基于斯坦福大学发表的SQuAD数据集(Rajpurkar P,Zhang J,Lopyrev K,et al.SQuAD:100,000+Questions for MachineComprehension of Text[C]//Proceedings of the 2016 Conference on EmpiricalMethods in Natural Language Processing,2016:2383–2392)进行,该数据集的特点是问题的标准答案都被设计为文档中的一个片段。因而基于该数据集设计的模型均属于抽取式模型,仅能够完成从原文本中获取关键片段作为答案的任务。而由微软研究院发表的另外一个阅读理解数据集MS MARCO(Nguyen T,Rosenberg M,Song X,et al.MS MARCO:A HumanGenerated MAchine Reading COmprehension Dataset[J].arXiv preprint arXiv:1611.09268,2016),则要求模型不仅仅能够抽取文本中的关键片段,而是需要通过对文本语义进行一定的归纳,生成符合自然语言形式的答案。显然,生成式模型比起抽取式模型而言,更符合实际应用中的需求。现在对生成式机器阅读模型的研究还较少。论文“ChuanqiT,et al.S-Net:From Answer Extraction to Answer Generation for Machine ReadingComprehension[J].arXiv preprint arXiv:1706.04815,2017”提出的S-NET模型采取了先抽取再合成的方法,能够更好地生成符合自然语言形式的答案,但其抽取方法存在缺点,无法同时利用文本中的多个有效信息片段。而论文“Rajarshee Mitra.An Abstractiveapproach to Question Answering[J].arXiv preprint arXiv:1711.06238,2017”提出的模型则直接采用生成方法,模型更为简化,却又失去了抽取式模型标记突出原文中有效消息的优点。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一个基于深度神经网络及强化学习的生成式机器阅读理解方法,该方法按照编码器-解码器结构设计,其中,编码器部分不进行单独训练,而是通过多任务联合训练的形式,与解码器一同训练;解码器部分采用文本摘要生成方法,在训练阶段,解码器同时生成两个文本序列,并分别采用监督学习及强化学习方法进行训练。
本发明的目的可以通过采取如下技术方案达到:
一个基于深度神经网络及强化学习的生成式机器阅读理解模型,所述方法包括以下步骤:
S1、对文本及问题中的句子进行分词、词性标注、命名实体识别等预处理,将单词映射成词表当中对应的词向量,并与词性及命名实体类型的特征向量拼接在一起,形成文本和问题的初始特征向量表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810131702.1/2.html,转载请声明来源钻瓜专利网。