[发明专利]一种基于强化学习的蒙汉双语种互译方法有效
申请号: | 201810428143.0 | 申请日: | 2018-05-07 |
公开(公告)号: | CN108920468B | 公开(公告)日: | 2019-05-14 |
发明(设计)人: | 苏依拉;高芬;张振;王宇飞;孙晓骞;牛向华;赵亚平 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 编码器‑解码器架构的神经机器翻译(NMT)在当前的标准机器翻译基准上实现了最佳的结果,但由于训练该模型需要大量平行语料数据,对于少数民族语言翻译领域而言,普遍面临双语对齐语料不足,资源稀少,因此本发明提供一种基于强化学习的蒙汉双语种互译方法。系统接受一个蒙语句子来翻译,生成一个汉语句子,并且得到一个标量分数作为反馈。利用强化学习技术,从反馈中有效地学习。在强化学习中定义解法的数学框架叫做马尔科夫决策过程。目标是找到一个策略使得预期的翻译质量最大化。在训练过程中,如果某个行为策略导致环境大的奖赏,那么以后产生这个行为策略的趋势便会加强,最终找到最优策略以使期望的折扣奖赏和最大,使得翻译质量提高。 | ||
搜索关键词: | 强化学习 翻译 机器翻译 行为策略 互译 奖赏 句子 少数民族语言 双语对齐语料 解码器架构 质量最大化 反馈 决策过程 数学框架 训练过程 最优策略 编码器 有效地 预期的 标量 语料 平行 折扣 汉语 神经 期望 学习 | ||
【主权项】:
1.一种基于强化学习的蒙汉双语种互译方法,基于编码‑解码架构的神经机器翻译系统,系统接受一个源语言句子a进行翻译,生成一个目标语言句子
同时得到一个标量分数作为反馈
利用强化学习方法从所述反馈
中学习,所述强化学习方法为马尔科夫决策过程,由编码器的编码作为动作,解码器生成的隐藏向量作为状态,进行系统和奖赏机制更新,将更新过程迭代多轮,直至翻译模型收敛,其特征在于,所述编码器和解码器均采用循环神经网络结构,编码器将源语言句子a编码成一个连续向量Φ(a),作为解码器的初始隐藏向量,解码器执行RNN更新以生成一个隐藏的序列向量(s1,s2,...st):s0=Φ(a)
其中,st表示解码器t时刻的隐藏状态,fθ为循环单元,e(·)表示词向量查找操作,bt表示双语库中正确的目标语言句子b的第t个词,st‑1表示t‑1时刻解码器的隐藏状态,
表示t‑1时刻解码器的输出矢量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810428143.0/,转载请声明来源钻瓜专利网。