[发明专利]一种多语言智能预处理实时统计机器翻译系统有效
申请号: | 201710203439.8 | 申请日: | 2017-03-30 |
公开(公告)号: | CN107066455B | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 张昱琪;唐亮 | 申请(专利权)人: | 唐亮 |
主分类号: | G06F40/45 | 分类号: | G06F40/45;G06F40/55;G06F40/58 |
代理公司: | 北京纽乐康知识产权代理事务所(普通合伙) 11210 | 代理人: | 邝溯琼 |
地址: | 100010 北京市朝阳区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语言 智能 预处理 实时 统计 机器翻译 系统 | ||
1.一种多语言智能预处理实时统计机器翻译系统,其特征在于,包括:
接收模块,所述接收模块用于对系统输入的规范性进行检查,所述接收模块包括文本语言接收模块和语音识别结果接收模块;其中文本语言接收模块用于对文本语言进行句子分割和格式转换,语音识别结果接收模块用于对语音进行分割、噪音消除和格式转换;
预处理模块,所述预处理模块包括文本预处理模块和语音识别结果预处理模块,所述文本预处理模块用于对文本输入的语言进行单词规范化操作、类别识别标注及语块语序调整,所述文本预处理模块包括单词规范化模块、类别识别标注模块和语块语序调整模块,所述单词规范化模块用于使待翻译语言在词语层面上更加接近目标语言;所述类别识别标注模块用于对待翻译语言文本中的数字、日期、时间、URL分别标注为$number, $date, $hour和$www,并预先将类别中的内容翻译成目标语言;所述语块语序调整模块用于对待翻译语言的句子进行语法分析,然后依据自动学习的规则对待翻译语言的语块顺序进行调整,使得待翻译语言的语序更加接近目标语言的语序;所述语音识别结果预处理模块用于对语音进行单词规范化操作和标点预测;
机器翻译模块,所述机器翻译模块用于学习短语对短语的翻译,并对经过预处理模块处理的短语找出对应的翻译短语,以及把短语连接成完整的句子;
后处理模块,所述后处理模块用于对翻译结果做单词标点规范化、大小写规范化和格式规范化处理,使其更加接近目标语言的表达习惯,并作为最终结果输出。
2.根据权利要求1所述的一种多语言智能预处理实时统计机器翻译系统,其特征在于,所述文本语言接收模块包括句子分割模块和格式转换模块,所述句子分割模块用于把输入文本在标点符号处断开,使得后续机器翻译模块翻译的基本单元为一句话;所述格式转换模块用于把语言文本的不同格式转换为机器翻译模块翻译时支持格式。
3.根据权利要求2所述的一种多语言智能预处理实时统计机器翻译系统,其特征在于,所述机器翻译模块翻译时支持格式是纯文本格式或XML格式。
4.根据权利要求1所述的一种多语言智能预处理实时统计机器翻译系统,其特征在于,所述语音识别结果接收模块包括句子分割模块和噪音消除模块,所述句子分割模块用于对输入的语音文本流根据词与词之间的停顿断句;所述噪音消除模块用于清除掉输入中口语话文本流中相邻重复的片段。
5.根据权利要求1所述的一种多语言智能预处理实时统计机器翻译系统,其特征在于,所述的语音识别结果预处理模块包括单词规范化模块和标点预测模块,所述单词规范化模块用于使待翻译语言中的词语颗粒更加接近目标语言的词语;所述标点预测模块用于根据上下文和词语间的停顿判断语音识别输出中句号的位置,所述的语音识别结果预处理模块对于语音识别结果可接收的模式为纯文本和混淆网络。
6.根据权利要求1所述的一种多语言智能预处理实时统计机器翻译系统,其特征在于,所述机器翻译模块包括训练模块和翻译模块,所述的训练模块利用GIZA++工具包在大规模平衡语料库中学习短语对短语的翻译;所述翻译模块用于对每个输入进来的句子,分割成短语片段,对每个短语片段根据训练模块的训练结果进行翻译,所述翻译模块的翻译过程是一个搜索过程,即从每一个翻译子模型的翻译结果组成的翻译组合中找出最优的翻译组合,所述最优的翻译组合即为最终的翻译结果。
7.根据权利要求6所述的一种多语言智能预处理实时统计机器翻译系统,其特征在于,所述的翻译子模型包括短语翻译模型,语言模型,语序改变模型,基于词性的语言模型,双语语言模型和领域自适应模型。
8.根据权利要求1所述的一种多语言智能预处理实时统计机器翻译系统,其特征在于,所述的后处理模块包括单词标点规范化模块、大小写转换模块和格式转换模块,所述单词标点规范化模块用于把机器翻译结果中的单词和标点规范化为目标语言的表现形式;所述大小写转换模块用于以西语作为目标语言的翻译;格式转换模块用于将翻译的目标语言的格式与待翻译语言的格式一致。
9.根据权利要求8所述的一种多语言智能预处理实时统计机器翻译系统,其特征在于,所述大小写转换模块用于将目标语言中的首字母和专有名词的字母改为大写形式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于唐亮,未经唐亮许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710203439.8/1.html,转载请声明来源钻瓜专利网。