[发明专利]一种文档格式转换的方法和装置在审
申请号: | 201810789098.1 | 申请日: | 2018-07-18 |
公开(公告)号: | CN108984491A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 沈文策 | 申请(专利权)人: | 沈文策 |
主分类号: | G06F17/21 | 分类号: | G06F17/21 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 项京;马敬 |
地址: | 350003 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标识符 文档 转换 出错区域 格式转换 文档格式转换 方法和装置 标识格式 快速查找 查找 应用 | ||
本发明实施例提供了一种文档格式转换的方法和装置,所述方法包括:获取待转换文档;在待转换文档中的易出错区域,确定第一标识符;对待转换文档进行格式转换,得到包括第二标识符的转换后文档,以根据第二标识符,在转换后文档中查找格式转换后的易出错区域,第二标识符是对第一标识符进行格式转换后得到的标识符,第二标识符用于在转换后文档中,标识格式转换后的易出错区域。应用本发明实施例能够快速查找格式转换后的易出错区域。
技术领域
本发明涉及图像识别技术领域,特别是涉及一种文档格式转换的方法和装置。
背景技术
在日常的工作中,经常会需要对文档的格式进行转换,比如,将包含不可编辑的字符或文字的文档,转换为包含可编辑的字符或文字的文档,具体的,可以将PDF格式或包含字符或文字的图像格式的文档,转换为WORD或TXT格式的文档,以便能够对文档中的字符或文字进行编辑处理。而在实际应用中,经常会出现转换出错的问题,尤其在文档包括复杂的计算公式、特殊符号、以及相似的字符或文字等不易辨识的内容的情况下,转换后文档中这些不易辨识的内容对应的转换结果中所包含的错误,通常占全篇错误中的绝大多数;比如,当转换前文档中包括大写字母O或阿拉伯数字0时,易将大写字母O误转换为阿拉伯数字0,或将阿拉伯数字0误转换为大写字母O。为了方便说明,可以将文档中的不易辨识的内容所在的位置称为易出错区域。
为了保证转换后文档的正确性,需要由人工根据待转换文档中的易出错区域,在转换后文档中查找格式转换后的易出错区域,以便对格式转换后的易出错区域中的内容进行逐一校正。但由于段落、字体等设置不同等原因,造成转换后文档与待转换文档的排版差距较大,使得上述不易辨识区域在待转换文档与转换后文档中的分布情况差距较大,导致查找起来比较困难,且费时费力。
发明内容
本发明实施例的目的在于提供一种文档格式转换的方法和装置,以实现在转换后文档中,快速查找格式转换后的易出错区域。具体技术方案如下:
本发明实施例提供了一种文档格式转换的方法,所述方法包括:
获取待转换文档;
在待转换文档中的易出错区域,确定第一标识符;
对待转换文档进行格式转换,得到包括第二标识符的转换后文档,以根据第二标识符,在转换后文档中查找格式转换后的易出错区域,第二标识符是对第一标识符进行格式转换后得到的标识符,第二标识符用于在转换后文档中,标识格式转换后的易出错区域。
可选的,所述第一标识符,用于使用彩色颜色填涂,来标识待转换文档中的易出错区域。
可选的,所述第二标识符,用于使用与第一标识符相同或不同的彩色颜色填涂,来标识转换后文档中的格式转换后的易出错区域。
可选的,所述第一标识符,用于当待转换文档的易出错区域包括字符或文字时,通过在待转换文档的易出错区域中设置第一首标识符和第一尾标识符,来标识待转换文档中的易出错区域,其中,第一首标识符设置在待转换文档的易出错区域中的第一个字符或文字之前,第一尾标识符设置在待转换文档的易出错区域中的最后一个字符或文字之后。
可选的,所述第二标识符,用于通过转换后文档中的第二首标识符和第二尾标识符,查找转换后文档中的格式转换后的易出错区域,其中,第二首标识符是对第一首标识符进行格式转换后得到的标识符,第二尾标识符是对第一尾标识符进行格式转换后得到的标识符。
本发明实施例再提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的文档格式转换的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈文策,未经沈文策许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810789098.1/2.html,转载请声明来源钻瓜专利网。