[发明专利]基于强化学习和机器翻译质量评估的中朝机器翻译方法有效
申请号: | 202110069256.8 | 申请日: | 2021-01-19 |
公开(公告)号: | CN112765996B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 赵亚慧;李飞雨;崔荣一;杨飞扬;王琪;金晶;金城;李丹阳;李路军;姜克鑫;高君龙;崔东虎 | 申请(专利权)人: | 延边大学 |
主分类号: | G06F40/51 | 分类号: | G06F40/51;G06F40/58;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 北京东方盛凡知识产权代理事务所(普通合伙) 11562 | 代理人: | 王颖 |
地址: | 133002 吉林省延*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 机器翻译 质量 评估 方法 | ||
1.基于强化学习和机器翻译质量评估的中朝机器翻译方法,其特征在于,包括以下步骤:
将句子级别评价机制引入翻译模型中指导模型的训练,评价机制采用机器翻译质量评估,指导策略采用强化学习方法,机器翻译过程中,NMT系统作为强化学习的智能体,通过不断与环境进行交互获取当前时刻环境状态信息,根据当前环境的状态决策出下一步所选单词,同时获得当前状态执行选词操作后的奖励值,进入下一状态;
通过机器翻译质量评估模型生成反馈信号,将所述机器翻译质量评估模型的输出作为奖励分数QE的一部分,所述机器翻译质量评估模型通过网络结构对生成的译文进行全面评分;
采用基于波束搜索的动作采样策略,将从词表中选取候选词看作一个动作,通过解码器生成目标句后环境给出的奖励来学习得到分数最高时对应的译文。
2.根据权利要求1所述的基于强化学习和机器翻译质量评估的中朝机器翻译方法,其特征在于,评价机制指导模型包括机器翻译模块和机器翻译质量评估模块,所述机器翻译模块采用编码器-解码器架构与Transformer保持一致,所述机器翻译质量评估模块采用句子级别的机器翻译质量评估模型Bilingual Expert进行质量评估。
3.根据权利要求2所述的基于强化学习和机器翻译质量评估的中朝机器翻译方法,其特征在于,所述机器翻译质量评估模型包括基于双向Transformer的词预测模块和基于Bi-LSTM的回归预测模型,所述双向Transformer的词预测模块包括源句的自注意力编码器、目标句的双向自注意力编码器和目标句的重构器,通过在大规模平行语料上进行预训练,获取隐藏状态特征h。
4.根据权利要求1所述的基于强化学习和机器翻译质量评估的中朝机器翻译方法,其特征在于,所述机器翻译质量评估模型在训练过程中,通过解码器生成目标句后,参考环境给出的奖励来学习得到分数最高时对应的译文。
5.根据权利要求4所述的基于强化学习和机器翻译质量评估的中朝机器翻译方法,其特征在于,使用生成句子经过所述机器翻译质量评估模块得到的QE值作为所述机器翻译质量评估模型的训练目标。
6.根据权利要求5所述的基于强化学习和机器翻译质量评估的中朝机器翻译方法,其特征在于,基于QE值和BLEU值的反馈函数为:
其中,为生成译文与参考译文之间的归一化BLEU值,为生成译文的归一化QE评估得分;超参数α用于平衡BLEU值和QE得分之间的权重。
7.根据权利要求6所述的基于强化学习和机器翻译质量评估的中朝机器翻译方法,其特征在于,在训练期间,动作采样表示为给定源句和上文选取该词的条件概率目标为追求期望奖励最大化;当生成完整目标句后,将所要翻译句子的质量评估得分作为标签信息计算反馈值,结合强化学习算法中的Policy Gradient方法得到最大化预期收益。
8.根据权利要求7所述的于强化学习和机器翻译质量评估的中朝机器翻译方法,其特征在于,训练期间使用奖励塑造,即每完成一次采样动作均计算一个累计奖励作为当前序列反馈值,两个连续时间步之间的反馈差值为词项级别奖励。
9.根据权利要求8所述的于强化学习和机器翻译质量评估的中朝机器翻译方法,其特征在于,将MLE训练目标与RL目标相结合,结合后的损失函数Lcombine为:
通过γ值对交叉熵损失和强化学习目标进行权衡,使模型效益最大化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于延边大学,未经延边大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110069256.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:预混燃烧器
- 下一篇:过滤式柠檬酸血液透析机用消毒清洗棒