[发明专利]含有命名实体的语料翻译方法、装置、电子设备及存储介质在审
申请号: | 201711245629.2 | 申请日: | 2017-11-30 |
公开(公告)号: | CN108009160A | 公开(公告)日: | 2018-05-08 |
发明(设计)人: | 李晓普;宋洪伟;程碧霄;闵可锐 | 申请(专利权)人: | 北京金山安全软件有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 祁献民 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 含有 命名 实体 语料 翻译 方法 装置 电子设备 存储 介质 | ||
1.一种含有命名实体的语料翻译方法,其特征在于,包括:
接收含有命名实体的待翻译语料;
通过机器学习模型对所述待翻译语料进行翻译,得到第一翻译结果;其中,所述机器学习模型对所述待翻译语料进行翻译时,将所述待翻译语料中的命名实体翻译为第一字符串;
从所述待翻译语料中获取与所述第一字符串对应的命名实体;
根据预设的翻译规则将所述命名实体翻译为目标语言文字串;
将所述第一翻译结果中的所述第一字符串替换为所述目标语言文字串,得到第二翻译结果。
2.如权利要求1所述的含有命名实体的语料翻译方法,其特征在于,所述机器学习模型根据如下方法获得:
准备若干组双语训练语料;
识别出所述双语训练语料中的命名实体;
根据预先设定的规范化规则,将识别出的所述双语训练语料中的命名实体进行规范化;
根据预先编制的命名实体的识别规则,将所述双语训练语料中规范化后的命名实体分别替换为第一字符串;所述命名实体的识别规则中保存有规范化的语言文字串与第一字符串之间的对应关系;
将命名实体替换为第一字符串的双语训练语料输入翻译模型中进行训练获得所述机器学习模型。
3.如权利要求1所述的含有命名实体的语料翻译方法,其特征在于,所述第一翻译结果中的所述第一字符串带有其对应的命名实体在所述待翻译语料中的位置信息;
所述从所述待翻译语料中获取与所述第一字符串对应的命名实体,包括:
根据所述第一字符串带有的位置信息,从所述待翻译语料中获取所述位置信息所指位置的原始语言文字串,作为与所述第一字符串对应的命名实体。
4.如权利要求2所述的含有命名实体的语料翻译方法,其特征在于,所述准备若干组双语训练语料,包括:
获取若干组双语语料;
对所述双语语料进行数据清洗;
对清洗后的中文语料进行分词,对拉丁文类语料内的单词进行标签加注。
5.如权利要求1-4任一项所述的含有命名实体的语料翻译方法,其特征在于,所述命名实体至少包括人名、地名、货币、日期或普通数字的一种。
6.如权利要求1-4任一项所述的含有命名实体的语料翻译方法,其特征在于,所述第一字符串为由特殊字符组成的字符串。
7.一种含有命名实体的语料翻译装置,其特征在于,包括:
接收模块,用于接收含有命名实体的待翻译语料;
第一翻译模块,用于通过机器学习模型对所述待翻译语料进行翻译,得到第一翻译结果;其中,所述机器学习模型对所述待翻译语料进行翻译时,将所述待翻译语料中的命名实体翻译为第一字符串;
匹配模块,用于从所述待翻译语料中获取与所述第一字符串对应的命名实体;
第二翻译模块,用于根据预设的翻译规则将所述命名实体翻译为目标语言文字串;
结果生成模块,用于将所述第一翻译结果中的所述第一字符串替换为所述目标语言文字串,得到第二翻译结果。
8.如权利要求7所述的含有命名实体的语料翻译装置,其特征在于,还包括:
语料准备模块,用于准备若干组双语训练语料;
识别模块,用于识别出所述双语训练语料中的命名实体;
规范模块,用于根据预先设定的规范化规则,将识别出的所述双语训练语料中的命名实体进行规范化;
替换模块,用于根据预先编制的命名实体的识别规则,将所述双语训练语料中规范化后的命名实体分别替换为第一字符串;所述命名实体的识别规则中保存有规范化的语言文字串与第一字符串之间的对应关系;
训练模块,用于将命名实体替换为第一字符串的双语训练语料输入翻译模型中进行训练获得所述机器学习模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山安全软件有限公司,未经北京金山安全软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711245629.2/1.html,转载请声明来源钻瓜专利网。