[发明专利]一种法语地名机器翻译方法有效
申请号: | 202111122788.X | 申请日: | 2021-09-24 |
公开(公告)号: | CN113807105B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 毛曦;马维军;高武俊;王继周 | 申请(专利权)人: | 中国测绘科学研究院 |
主分类号: | G06F40/42 | 分类号: | G06F40/42;G06F40/58;G10L13/08 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 赵兴华 |
地址: | 100089 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 法语 地名 机器翻译 方法 | ||
本发明公开一种法语地名机器翻译方法,方法包括:首先对预处理后的所述法语地名词组进行区分,获得地名通名部分和地名专名部分;其次将所述地名专名部分按照法汉音译表中字母组合进行翻译,获得专名音译结果;然后将所述地名通名部分按照法语通名所指的地理实体类别进行翻译,获得通名音译结果;最后将所述专名音译结果和所述通名音译结果进行整合,获得地名翻译结果。本发明公开的技术方案实现机器翻译,减少地名生成时的人力消耗,并提高了翻译法语地名的效率。
技术领域
本发明涉及地名翻译技术领域,特别是涉及一种法语地名机器翻译方法。
背景技术
地名翻译指的是将某一个地理实体在某一种语言上的表达转化为另一种语言的表达。通常来说,地名被分为地名通名部分和地名专名部分,地名通名部分是概括某种地物共性(类别)的通用词,起定性作用;地名专名部分是指代某一地理实体并用以区分同类地物的专用词,起定位作用。地名自动翻译或称机器地名翻译,是机器翻译中命名实体翻译的一部分。然而该部分是所有命名实体翻译中最难的一项。首先,地名组成复杂,不同尺度下的地名构成具有很大差别。其次,地名的翻译需要考虑通名和专名两个部分,即音译与意译两个部分,所以较多通用机器翻译均不能独立的解决地名的翻译问题,因此目前对法语地名翻译主要为人工进行,存在效率低下问题。
发明内容
本发明的目的是提供一种法语地名机器翻译方法,以提高法语地名翻译的效率。
为实现上述目的,本发明提供了一种法语地名机器翻译方法,所述方法包括:
获取待翻译的法语地名词组;
对所述法语地名词组进行预处理;
基于预处理后的所述法语地名词组进行区分,获得地名通名部分和地名专名部分;
将所述地名专名部分按照法汉音译表中字母组合进行翻译,获得专名音译结果;
将所述地名通名部分按照法语通名所指的地理实体类别进行翻译,获得通名音译结果;
将所述专名音译结果和所述通名音译结果进行整合,获得地名翻译结果。
可选地,所述基于预处理后的所述法语地名词组进行区分,获得地名通名部分和地名专名部分,具体包括:
基于地名语料库中存储的预处理后的法语地名词组确定地名通名模板;
根据各所述地名通名模板确定所有的通名结构分解方案;
计算各所述地名通名模板对应的对数频率;
对同一所述通名结构分解方案内的各所述对数频率求和,得到各所述通名结构分解方案对应的对数频率总和;
将所述对数频率总和最大的所述通名结构分解方案作为所述地名结构树;
将所述地名结构树的子叶节点作为所述地名专名部分;将所述地名结构树的非子叶节点作为所述地名通名部分。
可选地,所述基于地名语料库中存储的预处理后的法语地名词组确定地名通名模板,具体包括:
利用计算地名语料库中任意有序词对的互信息;其中,Pa表示预处理后的法语地名词组a在地名语料中出现的频率,Pb表示预处理后的法语地名词组b在地名语料中出现的频率,Pab表示预处理后的法语地名词组a与b之间的共现频率,MIab表示有序词对(a,b)的互信息;预处理后的法语地名词组a与预处理后的法语地名词组b组成有序词对(a,b);
将所述地名语料库中共现频率大于第一设定值且互信息大于第二设定值的有序词对存储到有序词对库中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国测绘科学研究院,未经中国测绘科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111122788.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:服装上装与下装颜色智能搭配方法
- 下一篇:一种按摩机芯及包含该机芯的按摩披肩