[发明专利]一种基于强化学习的蒙汉双语种互译方法有效

专利信息
申请号: 201810428143.0 申请日: 2018-05-07
公开(公告)号: CN108920468B 公开(公告)日: 2019-05-14
发明(设计)人: 苏依拉;高芬;张振;王宇飞;孙晓骞;牛向华;赵亚平 申请(专利权)人: 内蒙古工业大学
主分类号: G06F17/28 分类号: G06F17/28
代理公司: 西安智大知识产权代理事务所 61215 代理人: 段俊涛
地址: 010080 内蒙古自治区呼*** 国省代码: 内蒙古;15
权利要求书: 查看更多 说明书: 查看更多
摘要: 编码器‑解码器架构的神经机器翻译(NMT)在当前的标准机器翻译基准上实现了最佳的结果,但由于训练该模型需要大量平行语料数据,对于少数民族语言翻译领域而言,普遍面临双语对齐语料不足,资源稀少,因此本发明提供一种基于强化学习的蒙汉双语种互译方法。系统接受一个蒙语句子来翻译,生成一个汉语句子,并且得到一个标量分数作为反馈。利用强化学习技术,从反馈中有效地学习。在强化学习中定义解法的数学框架叫做马尔科夫决策过程。目标是找到一个策略使得预期的翻译质量最大化。在训练过程中,如果某个行为策略导致环境大的奖赏,那么以后产生这个行为策略的趋势便会加强,最终找到最优策略以使期望的折扣奖赏和最大,使得翻译质量提高。
搜索关键词: 强化学习 翻译 机器翻译 行为策略 互译 奖赏 句子 少数民族语言 双语对齐语料 解码器架构 质量最大化 反馈 决策过程 数学框架 训练过程 最优策略 编码器 有效地 预期的 标量 语料 平行 折扣 汉语 神经 期望 学习
【主权项】:
1.一种基于强化学习的蒙汉双语种互译方法,基于编码‑解码架构的神经机器翻译系统,系统接受一个源语言句子a进行翻译,生成一个目标语言句子同时得到一个标量分数作为反馈利用强化学习方法从所述反馈中学习,所述强化学习方法为马尔科夫决策过程,由编码器的编码作为动作,解码器生成的隐藏向量作为状态,进行系统和奖赏机制更新,将更新过程迭代多轮,直至翻译模型收敛,其特征在于,所述编码器和解码器均采用循环神经网络结构,编码器将源语言句子a编码成一个连续向量Φ(a),作为解码器的初始隐藏向量,解码器执行RNN更新以生成一个隐藏的序列向量(s1,s2,...st):s0=Φ(a)其中,st表示解码器t时刻的隐藏状态,fθ为循环单元,e(·)表示词向量查找操作,bt表示双语库中正确的目标语言句子b的第t个词,st‑1表示t‑1时刻解码器的隐藏状态,表示t‑1时刻解码器的输出矢量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810428143.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top