[发明专利]自然语言生成模型的训练方法和装置在审
申请号: | 202110395155.X | 申请日: | 2021-04-13 |
公开(公告)号: | CN113111638A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 程维 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/242;G06F40/30;G06K9/62;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 张雷;刘剑波 |
地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然语言 生成 模型 训练 方法 装置 | ||
1.一种自然语言生成模型的训练方法,包括:
以各历史时刻的生成词为当前时刻的状态,以当前时刻的生成词的输出为动作,将自然语言生成处理建模为强化学习模型;
根据所述强化学习模型输出的各时刻的生成词的优势函数,确定第一目标函数;
根据各时刻的标注结果的概率分布与各时刻的生成词的概率分布之间的差异,确定第二目标函数;
根据所述第一目标函数、所述第二目标函数的加权平均值,训练所述强化学习模型。
2.根据权利要求1所述的训练方法,其中,所述根据所述强化学习模型输出的各时刻的生成词的优势函数,确定第一目标函数包括:
根据各时刻的状态动作函数与其前一时刻的状态动作函数的差异,确定所述优势函数。
3.根据权利要求2所述的训练方法,其中,所述确定所述优势函数包括:
根据时刻0~t-1的动作a0~at-1、时刻t的动作at,预测时刻t+1~L-1的多种动作组合at+1~aL-1;
计算各动作组合at+1~aL-1的奖励值;
根据各奖励值的加权平均值,确定t时刻的状态动作函数。
4.根据权利要求1所述的训练方法,其中,所述根据所述强化学习模型输出的各时刻的生成词的优势函数,确定第一目标函数包括:
利用所述强化学习模型,输出的各时刻的生成词的生成概率;
根据各时刻的生成词的优势函数和生成概率,确定所述第一目标函数。
5.根据权利要求1所述的训练方法,其中,所述根据各时刻的标注结果的概率分布与各时刻的生成词的概率分布之间的差异,确定第二目标函数包括:
根据各时刻的标注结果与语料库中各词语之间的差异,确定各时刻的先验概率;
利用所述强化学习模型,输出的各时刻的生成词的生成概率;
根据各时刻的先验概率与生成概率的差异的加权平均值,确定所述第二目标函数。
6.根据权利要求5所述的训练方法,其中,所述根据各时刻的标注结果与语料库中各词语之间的差异,确定各时刻的先验概率包括:
根据各时刻的标注结果的词向量与语料库中各词语的向量的相似度,确定各时刻的先验概率。
7.根据权利要求5所述的训练方法,其中,所述根据各时刻的先验概率与生成概率的差异的加权平均值,确定所述第二目标函数包括:
根据各时刻的生成词的优势函数,确定相应时刻的先验概率与生成概率的差异的权重,所述权重与所述优势函数负相关。
8.根据权利要求1所述的训练方法,其中,所述根据所述第一目标函数、所述第二目标函数的加权平均值,训练所述强化学习模型包括:
根据所述第一目标函数、所述第二目标函数的加权平均值,确定综合目标函数;
以所述综合目标函数最小化为条件,训练所述强化学习模型。
9.根据权利要求1-8任一项所述的训练方法,还包括:
利用完成训练的所述强化学习模型,生成自然语言数据。
10.根据权利要求9所述的训练方法,其中,所述生成自然语言数据包括:
利用完成训练的所述强化学习模型,将输入的第一语言数据,翻译为第二语言数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110395155.X/1.html,转载请声明来源钻瓜专利网。