[发明专利]一种提升神经机器翻译效果的有效数据增强方法有效
申请号: | 201911088431.7 | 申请日: | 2019-11-08 |
公开(公告)号: | CN110852117B | 公开(公告)日: | 2023-02-24 |
发明(设计)人: | 杜权;李自荐 | 申请(专利权)人: | 沈阳雅译网络技术有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/211;G06N3/0464;G06N3/0442;G06N3/045 |
代理公司: | 沈阳新科知识产权代理事务所(特殊普通合伙) 21117 | 代理人: | 李晓光 |
地址: | 110004 辽宁省沈阳*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种提升神经机器翻译效果的有效数据增强方法,步骤为:在对应网站中获取基础数据集;根据基础数据集进行词对齐信息获取,得到基础数据集的词对齐信息;使用LSTM语言模型分别训练得到对应语种方向的语言模型;提取低于指定阈值频率的单词组成罕见词词表;获取词语对应信息,得到源语及目标语子句集合和子句对应集合;对目标语子句集合进行翻译,组成句子级数据扩充集合;用罕见词替换常见词得到词级的数据扩充集合;使用句子级和词级数据扩充集合与原始双语基础数据合并,组成训练集合进行神经机器翻译模型的训练,得到更高质量的模型结果。本发明实现了低资源语种语料的有效扩充,实现简单、方法有效,实用性强,提升效果明显。 | ||
搜索关键词: | 一种 提升 神经 机器翻译 效果 有效 数据 增强 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳雅译网络技术有限公司,未经沈阳雅译网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201911088431.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种芯片背部字符识别方法
- 下一篇:一种抓取机构