[发明专利]一种多种语言混合文件的翻译方法及装置在审
申请号: | 202010519194.1 | 申请日: | 2020-06-09 |
公开(公告)号: | CN111652007A | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 刘鹏;周玉;邓彪 | 申请(专利权)人: | 北京中科凡语科技有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 席小东 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多种 语言 混合 文件 翻译 方法 装置 | ||
1.一种多种语言混合文件的翻译方法,其特征在于,包括以下步骤:
步骤1,接收包含多种语言的待翻译文件;
步骤2,预存储每种文件类型与文件解析模块的对应关系表;
对所述待翻译文件的文件类型进行解析,得到待翻译文件的文件类型;然后,根据待翻译文件的文件类型,查找所述对应关系表,得到对应的文件解析模块;
步骤3,步骤2得到的所述文件解析模块,对所述待翻译文件进行文件解析,将所述待翻译文件解析成待翻译的文本;
其中,所述待翻译的文本包括文本内容信息以及文本属性信息;所述文本属性信息包括文本中每个句子在文本中的位置信息、文本中每个句子的格式信息、文本中每个句子的类型信息;其中,所述每个句子的类型信息包括:普通类型信息、第一特定类型信息以及第二特定类型信息;所述第一特定类型信息包括公式类型、科学单位类型和程序代码类型;所述第二特定类型信息包括时间类型、日期类型、金额类型、人名类型和术语类型;
步骤4,将所述文本内容信息以段落为单位进行切分,得到段落级的内容信息;然后,对于段落级的内容信息中的每个段落,再以句子为单位进行切分,得到句子级的内容信息;
对于句子级的内容信息中的每个句子,调用预训练完成的文本翻译类型分类器,识别出每个句子的类型信息;
如果句子的类型为第一特定类型信息,则对该句子不进行翻译,直接按照文本属性信息,调用译文回填模块,将句子直接回填到待翻译文件中;
如果句子的类型为第二特定类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的规则翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
如果句子的类型为普通类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的普通翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
步骤5,当对所述文本内容信息中的每个句子均进行步骤4的处理后,得到翻译后的文件;输出所述翻译后的文件;所述翻译后的文件与步骤1接收到的所述待翻译文件的文件类型相同。
2.根据权利要求1所述的一种多种语言混合文件的翻译方法,其特征在于,步骤2中,所述文件类型包括word文件类型和Excel文件类型。
3.根据权利要求1所述的一种多种语言混合文件的翻译方法,其特征在于,步骤3中,文本中每个句子在文本中的位置信息包括:页眉位置、页脚位置、脚注位置、尾注位置、标题位置、正文位置、表格位置和图位置;其中,所述正文位置是指在正文中的段号和句子号;表格位置是指:表格表号以及在对应表格中的行号列号;图位置是指:图的图号以及在对应图中的具体位置。
4.根据权利要求1所述的一种多种语言混合文件的翻译方法,其特征在于,步骤3中,文本中每个句子的格式信息包括:字体、字号以及字特殊格式信息。
5.根据权利要求4所述的一种多种语言混合文件的翻译方法,其特征在于,所述字特殊格式信息包括:字是否倾斜、字是否加粗以及字是否带下划线。
6.根据权利要求1所述的一种多种语言混合文件的翻译方法,其特征在于,步骤4中,所述普通翻译模块包括神经网络翻译模块和统计翻译模块。
7.一种权利要求1-6任一项所述的多种语言混合文件的翻译方法的翻译装置,其特征在于,包括:
输入模块,用于输入包含多种语言的待翻译文件;
接收模块,用于接收所述输入模块输入的包含多种语言的待翻译文件;
文件类型解析模块,用于对所述待翻译文件的文件类型进行解析,得到待翻译文件的文件类型;
查找模块,用于根据所述文件类型解析模块解析得到的待翻译文件的文件类型,查找对应关系表,得到对应的文件解析模块;
文件解析模块,用于对所述待翻译文件进行文件解析,将所述待翻译文件解析成待翻译的文本;
其中,所述待翻译的文本包括文本内容信息以及文本属性信息;所述文本属性信息包括文本中每个句子在文本中的位置信息、文本中每个句子的格式信息、文本中每个句子的类型信息;其中,所述每个句子的类型信息包括:普通类型信息、第一特定类型信息以及第二特定类型信息;所述第一特定类型信息包括公式类型、科学单位类型和程序代码类型;所述第二特定类型信息包括时间类型、日期类型、金额类型、人名类型和术语类型;
切分模块,用于将所述文本内容信息以段落为单位进行切分,得到段落级的内容信息;然后,对于段落级的内容信息中的每个段落,再以句子为单位进行切分,得到句子级的内容信息;
调用模块,用于对于句子级的内容信息中的每个句子,调用预训练完成的文本翻译类型分类器,识别出每个句子的类型信息;
如果句子的类型为第一特定类型信息,则对该句子不进行翻译,直接按照文本属性信息,调用译文回填模块,将句子直接回填到待翻译文件中;
如果句子的类型为第二特定类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的规则翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
如果句子的类型为普通类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的普通翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;
输出模块,用于输出所述翻译后的文件;所述翻译后的文件与步骤1接收到的所述待翻译文件的文件类型相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010519194.1/1.html,转载请声明来源钻瓜专利网。