[发明专利]一种利于翻译工作的文件抽取和还原方法有效
申请号: | 201510357672.2 | 申请日: | 2015-06-25 |
公开(公告)号: | CN104933041B | 公开(公告)日: | 2017-09-01 |
发明(设计)人: | 江潮;罗伟峰 | 申请(专利权)人: | 武汉传神信息技术有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/30 |
代理公司: | 北京华沛德权律师事务所11302 | 代理人: | 房德权 |
地址: | 430074 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利于 翻译 工作 文件 抽取 还原 方法 | ||
1.一种利于翻译工作的文件抽取和还原方法,其特征在于,包括以下步骤:
1)利用Aspose动态链接库对文档处理的操作支持,将待翻译的文档对象拆解成以单句为最小单位的待翻译数据集合;所述将待翻译的文档对象拆解成以句为最小单位的待翻译数据集合,包括以下步骤:
1-1调用Aspose组件;
1-2遍历所述文档对象,得到全部段落对象,所述段落对象包含文档对象全部的文字信息,而不包括无需翻译的符号、图像或其它非文字信息;
1-3遍历每一个段落对象的子节点对象,从而得到若干个的字符集合对象Run;
1-4遍历每一个Run对象,将全部Run对象拆分成一个个仅包含有一个完整的句子的Run对象,或者为仅包含有一个句子片段的Run对象;
1-5遍历每一个Run对象,将仅包含有句子片段的Run对象合并到其后续的仅包含有一个完整的句子的Run对象中;
2)建立一个译员处理文档,所述译员处理文档设有“原文”、“译文”和id三个字段,所述“原文”字段对应句子原文,“译文”字段对应句子译文;
3)将所述以单句为最小单位的待翻译数据集合中的每一个句子按顺序逐一复制到所述译员处理文档的“原文”字段,然后将待翻译数据集合中该句子的内容用一个具有唯一性的占位符号Guid替代,且相邻的占位符号Guid具有不同的字符格式;所述id字段的内容与所述不同的Guid之间具有一一映射的关系;
4)将所述译员处理文档下发到译员,所述译员在所述译员处理文档中逐个翻译“原文”字段的原文,填写到对应的“译文”字段,直到处理完成;
5)遍历所述待翻译数据集合和译员处理文档,根据不同Guid对应的不同id,找到该id对应的译文,覆盖写到所述待翻译数据集合中该对应Guid的位置;
6)调用Aspose动态链接库,将所述待翻译数据集合还原生成原稿格式文档。
2.根据权利要求1所述的利于翻译工作的文件抽取和还原方法,其特征在于,所述将仅包含有一个句子片段的Run对象合并到后续Run对象,包括以下步骤:
1-4-1将仅为一个句子片段的Run对象的字符内容取出,存放在临时存储单元,然后在段落对象中删除该Run对象;
1-4-2检查下一个Run对象,如果该Run对象的字符内容仅为一个句子片段,则取出该Run对象的字符内容,添加到临时存储单元,然后在段落对象中删除该Run对象,继续检查下下一个Run对象;否则,取出临时存储单元存放字符内容,添加到该下一个Run对象的字符内容之前,然后清空所述临时存储单元;
1-4-3如果该下一个Run对象的字符内容是以句子结束符作为结尾的,则将所述临时存储单元存放的字符内容取出,添加到该下一个Run对象的字符内容之前,然后清空所述临时存储单元。
3.根据权利要求1所述的利于翻译工作的文件抽取和还原方法,其特征在于,还包括,建立一个字典对象,所述字典对象的key为原文,value为译文,原文-译文为一个键值对;在遍历所述译员处理文档时,将一个记录中对应的原文-译文,分别写入所述字典对象。
4.根据权利要求3所述的利于翻译工作的文件抽取和还原方法,其特征在于,在步骤5)中,如果一个id所在记录的译文栏为空,则在所述字典对象中,以该id所在记录的原文为key去查找是否有匹配的译文value,如果找到则以该译文填充译文栏;
如果在所述字典对象中,没有找到匹配的译文value,则该句为漏译,直接使用原文进行填充。
5.根据权利要求1所述的利于翻译工作的文件抽取和还原方法,其特征在于,在将所述译员处理文档下发到译员之前,遍历所述译员处理文档,将重复的句子标记出来,提醒译员不需要重复翻译。
6.根据权利要求1所述的利于翻译工作的文件抽取和还原方法,其特征在于,在将所述译员处理文档下发到译员之前,遍历所述译员处理文档,将原文中的句子与术语库中的术语进行自动匹配,如果匹配,则对该术语句子进行批注,使得翻译工作更加顺畅。
7.根据权利要求1所述的利于翻译工作的文件抽取和还原方法,其特征在于,在将所述译员处理文档下发到译员之前,遍历所述译员处理文档,将原文中的句子逐一与语料库中的语料比对匹配,如果匹配,则将语料库中的语料译文填写到该匹配句子对应的“译文”字段内。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉传神信息技术有限公司,未经武汉传神信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510357672.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:中文地址分词标注方法
- 下一篇:具有送线供气导引选择机构的缝纫机结构