[发明专利]一种文档翻译系统及文档翻译方法有效
申请号: | 201910913794.3 | 申请日: | 2019-09-25 |
公开(公告)号: | CN110688863B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 刘立新;杨彬;贺文蝶;倪一非 | 申请(专利权)人: | 六维联合信息科技(北京)有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F40/30;G06F40/151 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 朱健 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 翻译 系统 方法 | ||
1.一种文档翻译系统,其特征在于,包括:
文档格式转换模块,用于将待翻译文档的格式转换为XML格式;
文档内容抽取模块,用于自动识别并提取转换为XML格式的所述待翻译文档中的内容,以获取提取内容;
文档翻译模块,用于对所述提取内容进行翻译,获得翻译文档;
所述文档翻译系统还包括文档组装模块,用于将所述待翻译文档和所述翻译文档进行组装,获得组装文档,所述文档组装模块包括文档生成组件、文档分割组件、文档补全组件或文档合并组件,其中,
所述文档生成组件用于基于所述待翻译文档和所述翻译文档,生成包括所述待翻译文档和与所述待翻译文档对应的所述翻译文档的双语对照文档;
所述文档分割组件用于根据所述待翻译文档中的页码,对所述翻译文档的页码进行分割,以使所述双语对照文档中的所述翻译文档的页码与所述待翻译文档中的页码相对应:
所述文档补全组件用于根据所述翻译文档的页码,将所述双语对照文档中的所述翻译文档进行补全,以使所述翻译文档的若干页面的内容与所述待翻译文档中的每一页面的内容相对应:
所述文档合并组件用于将每一页面的所述待翻译文档和与每一页面的所述待翻译文档相对应的若干页面的所述翻译文档进行合并,获得合并文档;
所述文档内容抽取模块采用以下公式自动识别并提取转换为XML格式的所述待翻译文档中的内容,以获取提取内容:
其中,Z为所述提取内容,g为提取函数,tagt为第t个标签的标签表示,vq为第q个节点的节点表示,Ctq为第q个节点第t个标签的所述待翻译文档内容,vroot为根节点表示,Croot为根节点对应所述待翻译文档内容,q为所述待翻译文档内容的节点变量,初始值为1,以1为单位递增,最大为r,r为所述待翻译文档内容的节点总数,t为所述待翻译文档内容的标签变量,初始值为1,以1为单位递增,最大为s,s为所述待翻译文档内容的标签总数。
2.如权利要求1所述的文档翻译系统,其特征在于,所述文档格式转换模块包括:
文档格式转化组件,用于将所述待翻译文档的非PDF格式转化为PDF格式;
内容抽取组件,用于分别抽取所述待翻译文档中的文本、图像、表格中的内容;
XML格式转化组件,用于分别将抽取的所述待翻译文档中的文本、图像、表格中的内容转化为XML格式文档。
3.如权利要求1所述的文档翻译系统,其特征在于,所述文档内容抽取模块包括基于坐标行的分析组件、基于坐标段落的分析组件、基于语义段落的分析组件或基于经验段落的分析组件,其中,
所述基于坐标行的分析组件用于根据坐标行训练模型,分别提取转换为XML格式的所述待翻译文档中的每一行的内容;
所述基于坐标段落的分析组件用于根据坐标段落训练模型,分别提取转换为XML格式的所述待翻译文档中的每一段落的内容;
所述基于语义段落的分析组件用于根据语义段落训练模型,分别对转换为XML格式的所述待翻译文档中的每一段落的内容进行语义分析;
所述基于经验段落的分析组件用于根据经验段落训练模型,分别对转换为XML格式的所述待翻译文档中的每一段落的内容进行语义分析。
4.如权利要求1所述的文档翻译系统,其特征在于,所述文档翻译模块包括文本分类器、统一翻译模块或规范语义识别翻译模块,其中,
所述文本分类器用于根据所述提取内容,将所述待翻译文档按照行业进行分类;
所述统一翻译模块用于根据所述文本分类器的分类,选择针对不同行业的翻译模型,对所述待翻译文档进行翻译,获得中间翻译结果;
所述规范语义识别翻译模块用于根据规范语义识别模型,对所述中间翻译结果的语义进行规范化处理,以获得所述翻译文档。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于六维联合信息科技(北京)有限公司,未经六维联合信息科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910913794.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于迁移学习的蒙汉互译方法
- 下一篇:一种磁条卡读卡器差分解码方法