[发明专利]一种基于元强化学习的文本生成方法有效

申请号：	202010156433.1	申请日：	2020-03-09
公开（公告）号：	CN111476020B	公开（公告）日：	2023-07-25
发明（设计）人：	赵婷婷;宋亚静;王嫄;任德华;杨巨成	申请（专利权）人：	天津科技大学
主分类号：	G06F40/205	分类号：	G06F40/205;G06N3/044;G06N3/092;G06N20/00
代理公司：	天津盛理知识产权代理有限公司 12209	代理人：	王利文
地址：	300457 天津市滨***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习文本生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于元强化学习的文本生成方法，其技术特点是：收集不同类型的文本数据作为不同任务的划分；收集文本数据中随机采取某一任务的数据；采用处理序列数据的递归型神经网络构造文本生成模型；生成K条文本轨迹；利用文本生成轨迹对文本生成模型进行少次策略梯度更新，得到更新后的文本生成模型；生成新的文本轨迹；在多个任务上分别对文本生成模型进行更新并采样，得到文本生成轨迹的表现误差；对原始文本生成模型参数进行二次梯度更新训练至收敛。本发明在强化学习利用递归神经网络进行文本生成的基础上进行改良，利用元强化学习训练智能体，将在多个任务上学习到的经验迁移到目标任务中，可快速实现不同场景或语境下的文本生成。

技术领域

本发明属于计算机自然语言处理技术领域，尤其是一种基于元强化学习的文本生成方法。

背景技术

自然语言处理(NLP)，特别是自然语言生成(NLG)问题，长期以来一直被认为是最具挑战性的计算任务之一。自然语言生成是让计算机具有与人一样的表达和写作能力的技术，它可以根据一些关键信息及其在机器内部的表达形式，经过规划自动生成一段高质量的自然语言文本。从最开始的模式匹配生成，通过一些简单的句法、语法规则来组织生成文本；到后来基于统计概率模型；再到现在伴随着深度学习的快速发展，基于深度学习的自然语言生成技术有了较为突出的进展，各种神经网络被提议出生成准确、自然和多样化的文本。

强化学习(reinforcement learning，简称RL)作为机器学习中的一个重要研究领域，以试错的机制与环境进行交互，通过最大化累积奖赏来学习最优策略。该技术可以将使用递归神经网络生成文本看作是一个马尔可夫决策过程(MDP)，其局部最优策略可以通过强化学习找到，这在最近的研究中取得了很好的结果。然而，现有的文本生成方法通常是针对特定领域开发的。而现实世界中的自然语言往往是多个领域的，且不同领域间的文本在语法、语义等规则上是一致的。此外，神经网络的训练往往需要大量的数据，标注充分学习数据需要花费大量的时间与金钱。因此，样本的收集及场景的适应能力是文本生成应用中的一个重要瓶颈问题。

发明内容

本发明的目的在于克服现有技术的不足，提出一种基于元强化学习的文本生成方法，用于解决真实世界中语言生成模型快速适应不同场景进行文本生成以及个别场景下学习样本不好收集的瓶颈问题。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于元强化学习的文本生成方法，包括以下步骤：

步骤1、收集不同类型的文本数据作为不同任务的划分；

步骤2、从步骤1收集的文本数据中随机采取某一任务τ_i的数据；

步骤3、采用处理序列数据的递归型神经网络构造文本生成模型f_θ；

步骤4、利用文本生成模型f_θ生成K条文本轨迹D_i；

步骤5、利用文本生成轨迹D_i对文本生成模型f_θ进行少次策略梯度更新，得到更新后的文本生成模型f_θ'；

步骤6、利用文本生成模型f_θ'生成新的文本轨迹D_i'；

步骤7、重复步骤2至步骤6，在多个任务上分别对文本生成模型进行更新并采样，得到文本生成轨迹的表现误差；

步骤8、利用步骤7得到文本生成轨迹的表现误差对原始文本生成模型参数进行二次梯度更新训练至收敛。