[发明专利]一种文档格式的转换方法及装置有效
申请号: | 201010206401.4 | 申请日: | 2010-06-14 |
公开(公告)号: | CN101853246A | 公开(公告)日: | 2010-10-06 |
发明(设计)人: | 李譞;晏检平 | 申请(专利权)人: | 深圳市万兴软件有限公司 |
主分类号: | G06F17/21 | 分类号: | G06F17/21 |
代理公司: | 深圳市君胜知识产权代理事务所 44268 | 代理人: | 刘文求 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 格式 转换 方法 装置 | ||
技术领域
本发明属于文档应用领域,具体涉及一种文档格式的转换方法及装置。
背景技术
随着电脑的不断普及,无纸化办公得到越来越多的应用,各种各样的文档也大量的出现在用户的面前。
以可移植文档格式(Portable Document Format,PDF)、office文档为例,在将PDF格式的文档转换为office格式的文档时,面临较多的困难。
在PDF格式的文档中,实际看到的文字特效,譬如例如下划线、删除线、字符底纹等,都是将图形与文本叠加形成的。因此,在将PDF文件转换为office格式的文档时,如果仅仅是从PDF文档中提取原始数据内容,有文字特效的文本就会变成分散的文本与图形混合在一起,如果需要还原文本特效,需要手动删除多余的图形并重新设置文本特效。
上述的转换方式不但丢失了原有PDF的文本效果,在转换后,还会造成页面的混乱,给转换后的文档的编辑带来极大的不便。
如何使得诸如PDF文档在转换为其他格式的文档时,能够保持原文档内容的还原度,增加文档转换后可编辑性,是文档转换技术领域研究的方向之一。
发明内容
本发明的目的在于提供一种文档格式的转换方法,旨在使得诸如PDF文档在转换为其他格式的文档时,能够保持原文档内容的还原度,增加文档转换后可编辑性。
本发明实施例是这样实现的,一种文档格式的转换方法,所述方法包括以下步骤:
获取原文档中的文本信息和图形信息;
将获取的原文档中的文本信息和图形信息进行文本特效识别,识别所述文本信息与所述图形信息之间的对应关系;
将识别出的所述文本信息与所述图形信息之间的对应关系进行存储;
根据所述存储的文本信息与所述图形信息之间的对应关系生成用户指定的文档格式。
本发明实施例的另一目的在于提供一种文档格式的转换装置,所述装置包括:
信息获取模块,用于获取原文档中的文本信息和图形信息;
文本特效识别模块,用于将获取的原文档中的文本信息和图形信息进行文本特效识别,识别所述文本信息与所述图形信息之间的对应关系;
存储模块,用于将识别出的所述文本信息与所述图形信息之间的对应关系进行存储;
文档格式转换模块,用于根据所述存储的文本信息与所述图形信息之间的对应关系生成用户指定的文档格式。
本发明实施例通过获取PDF文档中的文本信息以及图形信息,并对PDF文档中的文本信息和图形信息进行文本特效识别,识别文本信息和图形信息之间的关系并存储,根据存储的文本信息和图形信息之间的关系将PDF文档转换为其他格式的文档,使得诸如PDF文档在转换为其他格式的文档时,能够保持原文档内容的还原度,增加文档转换后可编辑性,解决了转换后页面混乱的问题。
附图说明
图1为本发明实施例提供的文档格式的转换方法的流程图;
图2为本发明实施例提供的将矩形转换为线段的流程图;
图3为本发明实施例提供的特效图形中下划线的特征示意图;
图4为本发明实施例提供的特效图形中删除线的特征示意图;
图5为本发明实施例提供的特效图形中底纹与高亮的特征示意图;
图6为本发明实施例提供的对带圈字符的识别转换流程图;
图7为本发明实施例提供的对带圈字符之外的其他特效图形的处理流程图;
图8为本发明实施例提供的能与图形组合成为特效文本的文本块集合的流程图;
图9为本发明实施例提供的文档格式的转换装置的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
图1示出了本发明实施例提供的文档格式的转换方法的流程。
在步骤S101中,获取原文档中的文本信息和图形信息。
为了便于说明,本发明实施例以PDF文档作为原文档为例进行说明,当然也可以是将其他的文档格式进行转换,此处不一一列举。
在步骤S102中,将获取的原文档中的文本信息和图形信息进行文本特效识别,识别所述文本信息与所述图形信息之间的对应关系。
在具体实施过程中,所述文本信息和所述图形信息包含的位置以及大小关系;
所述图形信息包含的图形的属性、特征等基本信息。
在步骤S103中,将识别出的所述文本信息与所述图形信息之间的对应关系进行存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市万兴软件有限公司,未经深圳市万兴软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010206401.4/2.html,转载请声明来源钻瓜专利网。