[发明专利]含有命名实体的语料翻译方法、装置、电子设备及存储介质在审
申请号: | 201711245629.2 | 申请日: | 2017-11-30 |
公开(公告)号: | CN108009160A | 公开(公告)日: | 2018-05-08 |
发明(设计)人: | 李晓普;宋洪伟;程碧霄;闵可锐 | 申请(专利权)人: | 北京金山安全软件有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 祁献民 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 含有 命名 实体 语料 翻译 方法 装置 电子设备 存储 介质 | ||
本发明实施例提供一种含有命名实体的语料翻译方法、装置、电子设备及存储介质,涉及机器翻译领域,用于解决现有机器翻译方法对含有命名实体的语料翻译准确率不高的问题。所述含有命名实体的语料翻译方法包括:接收含有命名实体的待翻译语料;通过机器学习模型对所述待翻译语料进行翻译,得到第一翻译结果;其中,所述机器学习模型对所述待翻译语料进行翻译时,将所述待翻译语料中的命名实体翻译为第一字符串;从所述待翻译语料中获取与所述第一字符串对应的命名实体;根据预设的翻译规则将所述命名实体翻译为目标语言文字串;将所述第一翻译结果中的所述第一字符串替换为所述目标语言文字串,得到第二翻译结果。本发明适用于各种机器翻译模型。
技术领域
本发明涉及机器翻译领域,尤其涉及一种含有命名实体的语料翻译方法、装置、电子设备及存储介质。
背景技术
机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。而且翻译本身即为具有潜质的商业内存块,国际交流的兴盛,更扩大了对翻译的需求。
基于深度学习的机器翻译方法自提出之后获得迅速发展,成为当前机器翻译领域的研究热点。目前由于语料规模限制,命名实体的翻译效果不能达到合格水平。命名实体的识别与翻译是统计机器翻译中语料预处理任务的一个重要步骤,对后续的模型训练和系统性能有重要的影响。
目前,命名实体的识别与翻译方法主要基于统计的方法,它利用人工标注的语料对翻译模型进行训练,翻译模型从语言现象中学习识别和翻译知识,自动判别并翻译命名实体。但是,基于统计的机器学习方法需要大规模语料的支持,当语料规模较小时,会降低命名实体的识别和翻译准确率,最终影响后续的自然语言处理任务。而在日常语料中关于命名实体的语料规模较小,利用目前的翻译模型翻译准确率不高。
发明内容
有鉴于此,本发明实施例提供一种含有命名实体的语料翻译方法、装置、电子设备及存储介质,能够解决现有机器翻译方法对含有命名实体的语料翻译准确率不高的问题。
第一方面,本发明实施例提供一种含有命名实体的语料翻译方法,包括:
接收含有命名实体的待翻译语料;
通过机器学习模型对所述待翻译语料进行翻译,得到第一翻译结果;其中,所述机器学习模型对所述待翻译语料进行翻译时,将所述待翻译语料中的命名实体翻译为第一字符串;
从所述待翻译语料中获取与所述第一字符串对应的命名实体;
根据预设的翻译规则将所述命名实体翻译为目标语言文字串;
将所述第一翻译结果中的所述第一字符串替换为所述目标语言文字串,得到第二翻译结果。
结合第一方面,在第一方面的第一种实施方式中,所述机器学习模型根据如下方法获得:
准备若干组双语训练语料;
识别出所述双语训练语料中的命名实体;
根据预先设定的规范化规则,将识别出的所述双语训练语料中的命名实体进行规范化;
根据预先编制的命名实体的识别规则,将所述双语训练语料中规范化后的命名实体分别替换为第一字符串;所述命名实体的识别规则中保存有规范化的语言文字串与第一字符串之间的对应关系;
将命名实体替换为第一字符串的双语训练语料输入翻译模型中进行训练获得所述机器学习模型。
结合第一方面,在第一方面的第二种实施方式中,所述第一翻译结果中的所述第一字符串带有其对应的命名实体在所述待翻译语料中的位置信息;
所述从所述待翻译语料中获取与所述第一字符串对应的命名实体,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山安全软件有限公司,未经北京金山安全软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711245629.2/2.html,转载请声明来源钻瓜专利网。