[发明专利]一种基于强化学习的蒙汉双语种互译方法有效
申请号: | 201810428143.0 | 申请日: | 2018-05-07 |
公开(公告)号: | CN108920468B | 公开(公告)日: | 2019-05-14 |
发明(设计)人: | 苏依拉;高芬;张振;王宇飞;孙晓骞;牛向华;赵亚平 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化学习 翻译 机器翻译 行为策略 互译 奖赏 句子 少数民族语言 双语对齐语料 解码器架构 质量最大化 反馈 决策过程 数学框架 训练过程 最优策略 编码器 有效地 预期的 标量 语料 平行 折扣 汉语 神经 期望 学习 | ||
1.一种基于强化学习的蒙汉双语种互译方法,基于编码-解码架构的神经机器翻译系统,系统接受一个源语言句子a进行翻译,生成一个目标语言句子同时得到一个标量分数作为反馈利用强化学习方法从所述反馈中学习,所述强化学习方法为马尔科夫决策过程,由编码器的编码作为动作,解码器生成的隐藏向量作为状态,进行系统和奖赏机制更新,将更新过程迭代多轮,直至翻译模型收敛,其特征在于,所述编码器和解码器均采用循环神经网络结构,编码器将源语言句子a编码成一个连续向量Φ(a),作为解码器的初始隐藏向量,解码器执行RNN更新以生成一个隐藏的序列向量(s1,s2,...st):
s0=Φ(a)
其中,st表示解码器t时刻的隐藏状态,fθ为循环单元,e(·)表示词向量查找操作,bt表示双语库中正确的目标语言句子b的第t个词,st-1表示t-1时刻解码器的隐藏状态,表示t-1时刻解码器的输出矢量。
2.根据权利要求1所述基于强化学习的蒙汉双语种互译方法,其特征在于,对于给定的一个源语言句子a,其预测值的第t个词即可以用下列公式表示表示模型策略,Pθ(b|a)表示从源语言句子a={a1,a2,...,an}到双语库中正确的目标语言句子b={b1,b2,...,bm}学习的一个概率映射,an是句子源语言句子a的第n个词,bm是双语库中正确的目标语言句子b的第m个词,定义Z(θ)=E(a,b)~Dtr[logPθ(b|a)],其中,Dtr表示训练集,E表示期望,符号~表示取值范围,Pθ(bt|b<t,a)是一个随机策略,b<t表示bt先前的词,表示先前的词;
通过随机策略Pθ(bt|b<t,a)来采取下一步行动,以t-1时刻的隐藏状态st-1作为输入,生成一个所有行为在目标词汇的概率分布,选择下一个动作是取argmax还是从这个策略取样,通过从模型策略中取样作为目标函数使预期的翻译质量最大化,目标函数为:
是一个返回[0,1]分数的奖励函数,反映输入译文的质量。
3.根据权利要求2所述基于强化学习的蒙汉双语种互译方法,其特征在于,通过梯度下降优化所述目标函数,公式如下:
再通过奇点采样和V的values来标准化奖励机制,从而减少上述公式的误差,并实现系统更新,公式如下:
其中,
其中,θ是训练模型参数,是目标函数,是关于θ的梯度表示,t是迭代次数。
4.根据权利要求3所述基于强化学习的蒙汉双语种互译方法,其特征在于,训练一个奖赏模型Vw来估计V的值,Vw是一种基于注意力的编码解码器,通过Vw,将编码源句a解码,预测在时刻t,计算其中W0是将向量转化成标量的矩阵,是RNN解码器的输出向量,通过以下公式训练奖赏机制以在实际值和预测值之间最小化均方误差:
给定一个固定的a,该公式的下降函数为:
根据该下降函数,实现奖赏机制更新;
其中,||·||2为欧几里得范数,为二范式,二范数是指空间上两个向量矩阵的直线距离,即两点之间的最短距离,来表示实际值和预测值之间的最小差距,是Z'(w)关于w的梯度表示,是Vw关于w的梯度表示,表示先前的词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810428143.0/1.html,转载请声明来源钻瓜专利网。