[发明专利]一种多语言智能预处理实时统计机器翻译系统有效
申请号: | 201710203439.8 | 申请日: | 2017-03-30 |
公开(公告)号: | CN107066455B | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 张昱琪;唐亮 | 申请(专利权)人: | 唐亮 |
主分类号: | G06F40/45 | 分类号: | G06F40/45;G06F40/55;G06F40/58 |
代理公司: | 北京纽乐康知识产权代理事务所(普通合伙) 11210 | 代理人: | 邝溯琼 |
地址: | 100010 北京市朝阳区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语言 智能 预处理 实时 统计 机器翻译 系统 | ||
本发明公开了一种多语言智能预处理实时统计机器翻译系统,包括:接收模块、预处理模块、机器翻译模块和后处理模块。所述接收模块包括文本语言接收模块和语音识别结果接收模块;所述预处理模块包括文本预处理模块和语音识别结果预处理模块;机器翻译模块,所述机器翻译模块用于学习短语对短语的翻译,并对经过预处理模块处理的短语找出对应的翻译短语,以及把短语连接成完整的句子;后处理模块,所述后处理模块用于对翻译结果做单词标点规范化、大小写规范化和格式规范化处理,使其更加接近目标语言的表达习惯,并作为最终结果输出。本发明能够用于对文本语言和语音语言进行翻译,且提高了对小概率词语、短语的翻译准确度。
技术领域
本发明涉及人工智能机器翻译技术领域,具体来说,涉及一种多语言智能预处理实时统计机器翻译系统。
背景技术
机器翻译是利用计算机对人类自然语言进行自动翻译的技术,是利用计算机把一种自然语言转换成另一种自然语言的过程,而且两种自然语言在意义上应该是等价的。
目前,一种比较成熟而且主流的机器翻译方法是基于统计的方法,该方法的优点在于几乎不需要人工撰写翻译规则,所有的翻译信息都是自动地从语料中学习而获得,因此该方法最大程度地发挥了计算机高速运算的特点,极大地降低了人工成本。
基于统计模型的机器翻译技术从平行语料库中学习从一种语言A到另一种语言B的短语翻译。在翻译新的句子时,把输入语言A的句子分解成若干短语,根据学习来的短语(A语言)-短语(B语言)的共现概率,把语言A的句子翻译成语言B的句子。整个学习、翻译过程完全根据统计模型。
但是,这种根据共现频度,概率方法的机器翻译对于小概率短语(例如专有名词翻译)处理能力不足, 另外,如何在统计模型中加入语法语义的表达,使得生成的翻译句子更加符合人的表达习惯,也是目前机器翻译技术需要解决的问题。
发明内容
针对相关技术中的上述技术问题,本发明提出一种多语言智能预处理实时统计机器翻译系统,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种多语言智能预处理实时统计机器翻译系统,包括:
接收模块,所述接收模块用于对系统输入的规范性进行检查,所述接收模块包括文本语言接收模块和语音识别结果接收模块;其中文本语言接收模块用于对文本语言进行句子分割和格式转换,语音识别结果接收模块用于对语音进行分割、噪音消除和格式转换;
预处理模块,所述预处理模块包括文本预处理模块和语音识别结果预处理模块,所述文本预处理模块用于对文本输入的语言进行单词规范化操作、类别识别标注及语块语序调整;所述语音识别结果预处理模块用于对语音进行单词规范化操作和标点预测;
机器翻译模块,所述机器翻译模块用于学习短语对短语的翻译,并对经过预处理模块处理的短语找出对应的翻译短语,以及生成完整的句子;
后处理模块,所述后处理模块用于对翻译结果做单词标点规范化、大小写规范化和格式规范化处理,使其更加接近目标语言的表达习惯,并作为最终结果输出。
进一步的,所述文本语言接收模块包括句子分割模块和格式转换模块,所述句子分割模块用于把输入文本在标点符号处断开,使得后续机器翻译模块翻译的基本单元为一句话;所述格式转换模块用于把语言文本的不同格式转换为机器翻译模块翻译时支持格式。
优选的,所述机器翻译模块翻译时支持格式是纯文本格式或XML格式。
进一步的,所述语音识别结果接收模块包括句子分割模块和噪音消除模块,所述句子分割模块用于对输入的语音文本流根据词与词之间的停顿断句;所述噪音消除模块用于清除掉输入中口语话文本流中相邻重复的片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于唐亮,未经唐亮许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710203439.8/2.html,转载请声明来源钻瓜专利网。