[发明专利]一种多种语言混合文件的翻译方法及装置在审

专利信息
申请号: 202010519194.1 申请日: 2020-06-09
公开(公告)号: CN111652007A 公开(公告)日: 2020-09-11
发明(设计)人: 刘鹏;周玉;邓彪 申请(专利权)人: 北京中科凡语科技有限公司
主分类号: G06F40/58 分类号: G06F40/58
代理公司: 北京市盛峰律师事务所 11337 代理人: 席小东
地址: 100190 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 多种 语言 混合 文件 翻译 方法 装置
【权利要求书】:

1.一种多种语言混合文件的翻译方法,其特征在于,包括以下步骤:

步骤1,接收包含多种语言的待翻译文件;

步骤2,预存储每种文件类型与文件解析模块的对应关系表;

对所述待翻译文件的文件类型进行解析,得到待翻译文件的文件类型;然后,根据待翻译文件的文件类型,查找所述对应关系表,得到对应的文件解析模块;

步骤3,步骤2得到的所述文件解析模块,对所述待翻译文件进行文件解析,将所述待翻译文件解析成待翻译的文本;

其中,所述待翻译的文本包括文本内容信息以及文本属性信息;所述文本属性信息包括文本中每个句子在文本中的位置信息、文本中每个句子的格式信息、文本中每个句子的类型信息;其中,所述每个句子的类型信息包括:普通类型信息、第一特定类型信息以及第二特定类型信息;所述第一特定类型信息包括公式类型、科学单位类型和程序代码类型;所述第二特定类型信息包括时间类型、日期类型、金额类型、人名类型和术语类型;

步骤4,将所述文本内容信息以段落为单位进行切分,得到段落级的内容信息;然后,对于段落级的内容信息中的每个段落,再以句子为单位进行切分,得到句子级的内容信息;

对于句子级的内容信息中的每个句子,调用预训练完成的文本翻译类型分类器,识别出每个句子的类型信息;

如果句子的类型为第一特定类型信息,则对该句子不进行翻译,直接按照文本属性信息,调用译文回填模块,将句子直接回填到待翻译文件中;

如果句子的类型为第二特定类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的规则翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;

如果句子的类型为普通类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的普通翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;

步骤5,当对所述文本内容信息中的每个句子均进行步骤4的处理后,得到翻译后的文件;输出所述翻译后的文件;所述翻译后的文件与步骤1接收到的所述待翻译文件的文件类型相同。

2.根据权利要求1所述的一种多种语言混合文件的翻译方法,其特征在于,步骤2中,所述文件类型包括word文件类型和Excel文件类型。

3.根据权利要求1所述的一种多种语言混合文件的翻译方法,其特征在于,步骤3中,文本中每个句子在文本中的位置信息包括:页眉位置、页脚位置、脚注位置、尾注位置、标题位置、正文位置、表格位置和图位置;其中,所述正文位置是指在正文中的段号和句子号;表格位置是指:表格表号以及在对应表格中的行号列号;图位置是指:图的图号以及在对应图中的具体位置。

4.根据权利要求1所述的一种多种语言混合文件的翻译方法,其特征在于,步骤3中,文本中每个句子的格式信息包括:字体、字号以及字特殊格式信息。

5.根据权利要求4所述的一种多种语言混合文件的翻译方法,其特征在于,所述字特殊格式信息包括:字是否倾斜、字是否加粗以及字是否带下划线。

6.根据权利要求1所述的一种多种语言混合文件的翻译方法,其特征在于,步骤4中,所述普通翻译模块包括神经网络翻译模块和统计翻译模块。

7.一种权利要求1-6任一项所述的多种语言混合文件的翻译方法的翻译装置,其特征在于,包括:

输入模块,用于输入包含多种语言的待翻译文件;

接收模块,用于接收所述输入模块输入的包含多种语言的待翻译文件;

文件类型解析模块,用于对所述待翻译文件的文件类型进行解析,得到待翻译文件的文件类型;

查找模块,用于根据所述文件类型解析模块解析得到的待翻译文件的文件类型,查找对应关系表,得到对应的文件解析模块;

文件解析模块,用于对所述待翻译文件进行文件解析,将所述待翻译文件解析成待翻译的文本;

其中,所述待翻译的文本包括文本内容信息以及文本属性信息;所述文本属性信息包括文本中每个句子在文本中的位置信息、文本中每个句子的格式信息、文本中每个句子的类型信息;其中,所述每个句子的类型信息包括:普通类型信息、第一特定类型信息以及第二特定类型信息;所述第一特定类型信息包括公式类型、科学单位类型和程序代码类型;所述第二特定类型信息包括时间类型、日期类型、金额类型、人名类型和术语类型;

切分模块,用于将所述文本内容信息以段落为单位进行切分,得到段落级的内容信息;然后,对于段落级的内容信息中的每个段落,再以句子为单位进行切分,得到句子级的内容信息;

调用模块,用于对于句子级的内容信息中的每个句子,调用预训练完成的文本翻译类型分类器,识别出每个句子的类型信息;

如果句子的类型为第一特定类型信息,则对该句子不进行翻译,直接按照文本属性信息,调用译文回填模块,将句子直接回填到待翻译文件中;

如果句子的类型为第二特定类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的规则翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;

如果句子的类型为普通类型信息,首先采用语种检测模块检测其语种;然后,根据检测到的句子语种,调用对应的普通翻译模块,将句子翻译为目标语言句子,再按照文本属性信息,调用译文回填模块,将目标语言句子回填到待翻译文件中;

输出模块,用于输出所述翻译后的文件;所述翻译后的文件与步骤1接收到的所述待翻译文件的文件类型相同。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010519194.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top