[发明专利]一种机器翻译译文的翻译方法、装置及存储介质有效
申请号: | 201910721252.6 | 申请日: | 2019-08-06 |
公开(公告)号: | CN110442880B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 林芯玥;刘晋;宋俊杰 | 申请(专利权)人: | 上海海事大学 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/44;G06F40/289 |
代理公司: | 上海互顺专利代理事务所(普通合伙) 31332 | 代理人: | 成秋丽 |
地址: | 201306 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器翻译 译文 翻译 方法 装置 存储 介质 | ||
本发明公开了一种机器翻译译文的翻译方法、装置及存储介质,包括:接收待翻译的源语句;对所述源语句进行分词处理;获取所述分词中每一个单词的词性;根据词向量模型,将所述词性融入单词所对应的词向量中,获取融合后的词向量序列;将所述词向量序列输入至编码器解码器模型中,获得编解码结果;针对所述编解码结果,基于波束搜索评价函数进行结果评价,其中,所述波束搜索评价函数包括在基于长度对比的惩罚项和重复检测的惩罚项;根据所述评价结果获得译文。应用本发明实施例,改善了译文中出现重复片段以及遗漏源语句的问题,适用范围广、针对性强、翻译译文质量较高。
技术领域
本发明涉及机器翻译译文改进技术领域,尤其涉及一种机器翻译译文的翻译方法、装置及存储介质。
背景技术
语言是人类平时信息交流最重要的一种载体,它对于整个社会的发展有着十分重要的影响,机器自动化翻译的方法已经成为了目前的一个迫切的需求。实现不同语言的自动化翻译由着巨大的应用控件。
目前,基于规则的机器翻译方法需要专业的语言学家制定大量的规则,人工成本高,可扩展性差。基于中间语言的机器翻译方法需要制定一套通用的中间语言,难度太高,且鲁棒性低。基于统计的机器翻译方法虽然人工成本较低,扩展性得到了提高,但译文质量依旧较差。基于神经网络的机器翻译方法是目前最先进的机器翻译方法,但对于翻译译文的质量依旧有着改进的空间。
发明内容
本发明的目的在于提供一种机器翻译译文的翻译方法、装置及存储介质,旨在解决现有机器翻译模型生成译文质量较差的问题。
为了实现上述目的,本发明提供一种机器翻译译文的翻译方法,所述方法包括:
接收待翻译的源语句;
对所述源语句进行分词处理;
获取所述分词中每一个单词的词性;
根据词向量模型,将所述词性融入单词所对应的词向量中,获取融合后的词向量序列;
将所述词向量序列输入至编码器解码器模型中,获得编解码结果;
针对所述编解码结果,基于波束搜索评价函数进行结果评价,其中,所述波束搜索评价函数包括在基于长度对比的惩罚项和重复检测的惩罚项;
根据所述评价结果获得译文。
进一步的,所述波束搜索评价函数的具体表达为:
s(Y,X)=log(P(Y|X))+d(x)+l(x)
其中,x(Y,X)是波束搜索评价函数,log(P(Y/X))是在X出现时Y出现的概率函数,d(x)是基于重复检测的惩罚项,l(x)为基于长度对比的惩罚,P是分布函数;
在波束搜索评价函数中加入基于长度比值的惩罚项,用于解决译文出现部分漏翻的问题;
在波束搜索评价函数中加入基于重复检测的惩罚项,用于解决译文出现重复内容的问题。
进一步的,所述重复检测惩罚项d(x)的具体公式表达为:
其中,c为当前翻译单词所在的索引,δ为重复检测的范围,ε为惩罚系数,y为候选译文所对应的矩阵,yc-j,yc-i-j分别为重复检测的两个矩阵,i,j,为遍历变量。
进一步的,所述针对所述编解码结果,基于波束搜索评价函数进行结果评价的步骤,包括:
所述源语句的长度与目标译文的长度比值;
通过线形回归对所述长度比值进行拟合,得到累计分布函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海事大学,未经上海海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910721252.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种内容翻译的方法和终端
- 下一篇:一种语音转换的信息处理方法和装置