[发明专利]基于语境迭代分析的汉译英机器翻译方法有效
申请号: | 201810282274.2 | 申请日: | 2018-04-02 |
公开(公告)号: | CN108491399B | 公开(公告)日: | 2021-08-06 |
发明(设计)人: | 王路 | 申请(专利权)人: | 上海杓衡信息科技有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/205;G06F40/253;G06F40/289 |
代理公司: | 北京世誉鑫诚专利代理有限公司 11368 | 代理人: | 孙国栋 |
地址: | 200439 上海市宝山*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语境 分析 汉译英 机器翻译 方法 | ||
本发明涉及基于语境迭代分析的汉译英机器翻译方法,包括:(1)判断是否有关键词库、专业术语库、汉语常见关联词句式库、汉语常见片语库、带有语境信息的单词库、统计机器翻译模型,若缺少任一个库或模型,进入步骤(2),反之,进入步骤(3);(2)构建1个关键词库、1个专业术语库、1个汉语常见关联词句式库、1个汉语常见片语库、1个带有语境信息的单词库和1个统计机器翻译模型;(3)接收待翻译的论文的中文摘要,并对其进行语境迭代翻译;(4)规整英文摘要;(5)输出英文摘要。本发明公开的基于语境迭代分析的汉译英机器翻译方法具有翻译领域广、准确率高等优点。
技术领域
本发明属于人工智能机器翻译领域,涉及一种汉译英的机器翻译方法,特别涉及基于语境迭代分析的汉译英机器翻译方法。
背景技术
机器翻译是利用计算机技术将人类的某种自然语言转换为另一种自然语言的过程。它是人工智能和自然语言处理领域的重要研究方向之一。不仅具有重要的科学研究价值,同时也具有重要的实用价值。随着经济全球化及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。
目前,技术成熟且使用最为流行的机器翻译技术是基于统计的机器翻译方法。虽然,当前最前沿的基于神经网络的机器翻译方法异军突起,但是由于构建翻译神经网络对硬件要求过高,因此对于提供机器翻译服务的中小微企业而言,使用基于统计的机器翻译方法仍然是一个现实的选择。统计机器翻译方法的工作方式是使用非常庞大的平行语料库以及短语语料库训练翻译模型。当翻译汉语句子时,基于统计的机器翻译系统首先把汉语句子分解成若干短语,然后翻译模型根据训练的“汉语—英语”短语对的共现概率,选择出对应的英文短语,这样就把汉语逐步翻译成英语。
这种基于短语共现概率的统计机器翻译方法有个主要缺陷:在选择英文短语时只考虑了“汉语—英语”短语对的共现概率,没有考虑汉语出现的语境信息,即只选择共现概率最大的英语短语,但被选的英语短语在这个语境中出现是否合适或者是否正确则没有考量。
语境是语用交际系统中的三大要素之一,它是与具体的语用行为密切联系的、同语用过程相始终的、对语用活动有重要影响的条件和背景;它是诸多因素构成的、相对独立的客观存在,又同语用主体和话语实体互相渗透;它既是确定的,又是动态的,以语境场的方式在语用活动中发挥作用。
通过语境的定义可以发现,语境对语言的使用至关重要。在翻译过程中如果不考虑语境因素,是无法保证翻译质量的。
虽然有的统计机器翻译实现了依据相邻短语的语境信息来选择英语短语的方法,但对于依据更外层的语境,比如句子成分、句子、句间、篇章等这种长距离语境,来选择英语短语,则仍然没有实现。
以汉语常见的搭配结构“一方面…另一方面…”构成的句间语境举例。如果没有这种句间语境分析,现有的统计机器翻译只会关注到“一方面”或“另一方面”,最多也只能关注与它们两个各自相邻的短语,而不会发现“一方面”和“另一方面”之间具有逻辑上的关联。这样,它在翻译“一方面”时,就有可能忽略或直接翻译成“in one way”。但是如果利用句间语境分析,就会发现这种逻辑上的关联,并在翻译时加以利用。那么“一方面…另一方面…”就有可能会很翻译成“on the one hand…,but on the other…”。
再以篇章构成的语境举例。假设一个汉语名词“架构”出现在一篇科技论文摘要中,如果没有篇章语境分析,那么对“架构”的翻译就完全依赖于统计翻译模型在训练时使用的语料。一般情况下,现有的统计机器翻译模型的训练语料绝大部分属于时政新闻类型,那么对“架构”的翻译也就来自于时政新闻的语境。比如像“股权架构”就非常容易出现在新闻中,那么“架构”就很有可能就依据这种语境来翻译了。如果这篇论文摘要来自于“计算机科学领域”,那么翻译时就有可能造成偏差。但是如果有篇章语境分析,就可以确定这篇摘要属于哪个学科领域。依据学科领域,对“架构”进行翻译就会相对准确一些。比如在“计算机科学技术”领域,可能会翻译成“framework”或“architecture”;在“管理科学”领域,则有可能会翻译成“structure”。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海杓衡信息科技有限公司,未经上海杓衡信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810282274.2/2.html,转载请声明来源钻瓜专利网。