[发明专利]去除从双层电子文件中复制的文本中的空格的方法与系统有效

专利信息
申请号: 201010531159.8 申请日: 2010-10-29
公开(公告)号: CN101980185B 公开(公告)日: 2013-03-27
发明(设计)人: 周长岭;赵海涛;兰荣春 申请(专利权)人: 方正国际软件有限公司
主分类号: G06F17/22 分类号: G06F17/22
代理公司: 北京康信知识产权代理有限责任公司 11240 代理人: 吴贵明
地址: 215123 江苏省苏州工业*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 去除 双层 电子 文件 复制 文本 中的 空格 方法 系统
【说明书】:

技术领域

发明涉及一种去除从双层电子文件中复制的文本中的空格 的方法与系统。

背景技术

可移植文档格式(Portable Document Format,PDF)的双层电 子文件例如书籍、文件,是有图像层与文字层的PDF文件,图像层 上显示原书例如纸书的版面,上面每一个字实际上是一个字形图 像;文字层在图像层下面,并不显示出来,文字层中包含文件的电 子版文本,通常是使用光学字符识别(Optical Character Recognition, OCR)的方式获得。文字层的文本与图像层的字形图像按字对位, 通常字符的左侧为对位基准侧。

由于Acrobat或者Adobe reader在处理文本复制功能时,字符 之间的间隔并不是按照一行中是否真实存在空格符来生成复制的 数据,而是根据字符的坐标确定字符间距,按照该间距判断字符间 是否“需要”空格;即如果两个字在同一行,并且按照Acorbat的 判断准则,这两个字之间的水平位置距离较远,这个时候选中本行 文本,复制到剪贴板,查看剪贴板的文本,则在水平位置较远的相 邻两个字符之间多出了原文没有的空格。这个空格就是由Acrobat 或者Adobe reader根据文字位置插入的多余空格。

在插入了多余空格的情况下,字符组成的文本会失去原有的文 字意义。图1是根据现有技术的从双层电子文件中复制的文本中存 在多余空格以及该文本的原始状态的示意图。如图1所示,文本区 域11的文本中包含若干单词,在插入了多余空格的情况下成为文 本区域12所示的一个个离散的字母,这样会给使用者带来很多不 便,例如影响阅读;又如无法利用计算机检索其中的单词。

现有技术中,从双层电子文件中复制的文本中存在多余空格, 对于该问题,目前尚未提出有效解决方案。

发明内容

本发明的主要目的是提供一种去除从双层电子文件中复制的 文本中的空格的方法与系统,用以解决现有技术中从双层电子文件 中复制的文本中存在多余空格的问题。

为解决上述问题,根据本发明的一个方面,提供了一种去除从 双层电子文件中复制的文本中的空格的方法。

本发明的去除从双层电子文件中复制的文本中的空格的方法 包括:从双层电子文件中复制相邻的两个字符,然后判断所述两个 字符是否为空格符;在所述相邻的两个字符都不是空格符的情况 下,检查复制得到的所述两个字符之间是否存在空格,若存在空格, 则将所述双层电子文件文字层的所述两个字符中的至少一个字符 向另一字符的方向拉伸。

进一步地,从双层电子文件中复制相邻的两个字符之前还包 括:从所述双层电子文件的当前页中复制文本块;在所述文本块中 的非空格符的字符一侧或两侧出现空格的情况下,在输出的所述文 本块中标示出该空格。

进一步地,从双层电子文件中复制相邻的两个字符包括:根据 所述双层电子文件的内核数据确定针对相邻两个字符的选择区域; 从所述确定的选择区域中复制字符。

进一步地,将所述两个字符中的至少一个字符向另一字符的方 向拉伸之后还包括:判断所述两个字符之间是否存在空格,若存在 则在输出的这两个字符之间标示出该空格。

进一步地,在输出的这两个字符之间标示出该空格之后,所述 方法还包括:将拉伸后的字符再次进行已执行的拉伸的操作。

进一步地,所述双层电子文件的图像层与文字层的对位基准侧 是字符第一侧;将所述双层电子文件文字层的所述两个字符中的至 少一个字符向另一字符的方向拉伸包括:将所述双层电子文件文字 层的所述两个字符中的第一侧字符向第二侧拉伸。

进一步地,在所述相邻的两个字符中的至少一个为空格符的情 况下,重复执行从双层电子文件中复制相邻的两个字符及其后的步 骤,并且对当前版面中的同一位置的两个字符不重复进行复制。

进一步地,所述双层电子文件为可移植文档格式(Portable  Document Format)的文件。

为解决上述问题,根据本发明的另一方面,提供了一种去除从 双层电子文件中复制的文本中的空格的系统。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于方正国际软件有限公司,未经方正国际软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010531159.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top