[发明专利]文档处理方法以及装置有效
申请号: | 201810173169.5 | 申请日: | 2018-03-01 |
公开(公告)号: | CN108334481B | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 屈耕 | 申请(专利权)人: | 四川语言桥信息技术有限公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F40/126 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 王文红 |
地址: | 610000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 处理 方法 以及 装置 | ||
本发明提供了一种文档处理方法以及装置,主要是通过提取XML中的需要翻译的文本,然后对其进行替换实现无差异还原,能够高保真的还原原文档格式。通过部分可视化元素,减少页面(编辑器)标签,通过多源文档解压后的xml元素加唯一性id和model中标签id对应,实现元素节点还原,能够实现较好的保真效果。
技术领域
本发明涉及数据处理领域,具体而言,涉及一种文档处理方法以及装置。
背景技术
近十年来,信息技术、人工智能、自然语言处理等的发展,特别是计算机硬件承载能力持续增长,互联网技术、云计算深入发展促使翻译技术突飞猛进,翻译系统功能不断改善,翻译行业生产力不断提高,智能化、语境化、可视化、集成化、网络协作化等特征越来越明显。可以预见,传统翻译生产方式将逐步被新技术洪流淹没,以云计算为基础架构的云翻译系统将会粉墨登场。
当前市面上的计算机程序中的计算机辅助翻译软件(Computer AidedTranslation,CAT)在针对Office在文档文本提取和样式存在标签过多的情况下时,如Visualtran,WordFast,还原文件易丢失内容,对译后查找校对有较大影响,对翻译后的文本内容和样式进行还原时,都容易丢失。
发明内容
有鉴于此,本发明实施例的目的在于提供一种文档处理方法以及装置,以解决上述问题。
第一方面,本发明实施例提供了一种文档处理方法,所述方法包括:将预先获取到的待处理文档进行识别,得到所述待处理文档中的目标节点,所述目标节点至少包括段落节点、文本和文本样式节点以及文本节点;基于预先保存的标识符生成算法,对所述目标节点中的每个节点标记唯一性标识;将添加唯一性标识后的待处理文档进行加密处理,得到加密文档;将所述加密文档按照节点的不同分别保存在预先设置的标签模型内;获取与所述待处理文档对应的译文;将所述译文与保存在所述标签模型内的所述文本节点进行替换;对进行替换后的所述加密文档进行解密后,基于所述唯一性标识,将替换后的所述加密文档进行还原。
第二方面,本发明实施例提供了一种文档处理装置,所述装置包括:识别模块,用于将预先获取到的待处理文档进行识别,得到所述待处理文档中的目标节点,所述目标节点至少包括段落节点、文本和文本样式节点以及文本节点;标记模块,用于基于预先保存的标识符生成算法,对所述目标节点中的每个节点标记唯一性标识;加密模块,用于将添加唯一性标识后的待处理文档进行加密处理,得到加密文档;保存模块,用于将所述加密文档按照节点的不同分别保存在预先设置的标签模型内;获取模块,用于获取与所述待处理文档对应的译文;替换模块,用于将所述译文与保存在所述标签模型内的所述文本节点进行替换;还原模块,用于对进行替换后的所述加密文档进行解密后,基于所述唯一性标识,将替换后的所述加密文档进行还原。
与现有技术相比,本发明各实施例提出的文档处理方法以及装置,通过将预先获取到的待处理文档进行识别,得到所述待处理文档中的目标节点,所述目标节点至少包括段落节点、文本和文本样式节点以及文本节点;基于预先保存的标识符生成算法,对所述目标节点中的每个节点标记唯一性标识;将添加唯一性标识后的待处理文档进行加密处理,得到加密文档;将所述加密文档按照节点的不同分别保存在预先设置的标签模型内;获取与所述待处理文档对应的译文;将所述译文与保存在所述标签模型内的所述文本节点进行替换;对进行替换后的所述加密文档进行解密后,基于所述唯一性标识,将替换后的所述加密文档进行还原。本方案主要是通过提取XML中的需要翻译的文本,然后对其进行替换实现无差异还原,能够高保真的还原原文档的格式。通过部分可视化元素,减少页面(编辑器)标签,通过多源文档解压后的xml元素加唯一性id和model中标签id对应,实现元素节点还原,能够实现较好的保真效果。减少了以前译员排版的烦恼。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川语言桥信息技术有限公司,未经四川语言桥信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810173169.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网页信息提取的方法及装置
- 下一篇:一种电子批文生成方法和装置