[发明专利]去除从双层电子文件中复制的文本中的空格的方法与系统有效
申请号: | 201010531159.8 | 申请日: | 2010-10-29 |
公开(公告)号: | CN101980185B | 公开(公告)日: | 2013-03-27 |
发明(设计)人: | 周长岭;赵海涛;兰荣春 | 申请(专利权)人: | 方正国际软件有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 吴贵明 |
地址: | 215123 江苏省苏州工业*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 去除 双层 电子 文件 复制 文本 中的 空格 方法 系统 | ||
技术领域
本发明涉及一种去除从双层电子文件中复制的文本中的空格 的方法与系统。
背景技术
可移植文档格式(Portable Document Format,PDF)的双层电 子文件例如书籍、文件,是有图像层与文字层的PDF文件,图像层 上显示原书例如纸书的版面,上面每一个字实际上是一个字形图 像;文字层在图像层下面,并不显示出来,文字层中包含文件的电 子版文本,通常是使用光学字符识别(Optical Character Recognition, OCR)的方式获得。文字层的文本与图像层的字形图像按字对位, 通常字符的左侧为对位基准侧。
由于Acrobat或者Adobe reader在处理文本复制功能时,字符 之间的间隔并不是按照一行中是否真实存在空格符来生成复制的 数据,而是根据字符的坐标确定字符间距,按照该间距判断字符间 是否“需要”空格;即如果两个字在同一行,并且按照Acorbat的 判断准则,这两个字之间的水平位置距离较远,这个时候选中本行 文本,复制到剪贴板,查看剪贴板的文本,则在水平位置较远的相 邻两个字符之间多出了原文没有的空格。这个空格就是由Acrobat 或者Adobe reader根据文字位置插入的多余空格。
在插入了多余空格的情况下,字符组成的文本会失去原有的文 字意义。图1是根据现有技术的从双层电子文件中复制的文本中存 在多余空格以及该文本的原始状态的示意图。如图1所示,文本区 域11的文本中包含若干单词,在插入了多余空格的情况下成为文 本区域12所示的一个个离散的字母,这样会给使用者带来很多不 便,例如影响阅读;又如无法利用计算机检索其中的单词。
现有技术中,从双层电子文件中复制的文本中存在多余空格, 对于该问题,目前尚未提出有效解决方案。
发明内容
本发明的主要目的是提供一种去除从双层电子文件中复制的 文本中的空格的方法与系统,用以解决现有技术中从双层电子文件 中复制的文本中存在多余空格的问题。
为解决上述问题,根据本发明的一个方面,提供了一种去除从 双层电子文件中复制的文本中的空格的方法。
本发明的去除从双层电子文件中复制的文本中的空格的方法 包括:从双层电子文件中复制相邻的两个字符,然后判断所述两个 字符是否为空格符;在所述相邻的两个字符都不是空格符的情况 下,检查复制得到的所述两个字符之间是否存在空格,若存在空格, 则将所述双层电子文件文字层的所述两个字符中的至少一个字符 向另一字符的方向拉伸。
进一步地,从双层电子文件中复制相邻的两个字符之前还包 括:从所述双层电子文件的当前页中复制文本块;在所述文本块中 的非空格符的字符一侧或两侧出现空格的情况下,在输出的所述文 本块中标示出该空格。
进一步地,从双层电子文件中复制相邻的两个字符包括:根据 所述双层电子文件的内核数据确定针对相邻两个字符的选择区域; 从所述确定的选择区域中复制字符。
进一步地,将所述两个字符中的至少一个字符向另一字符的方 向拉伸之后还包括:判断所述两个字符之间是否存在空格,若存在 则在输出的这两个字符之间标示出该空格。
进一步地,在输出的这两个字符之间标示出该空格之后,所述 方法还包括:将拉伸后的字符再次进行已执行的拉伸的操作。
进一步地,所述双层电子文件的图像层与文字层的对位基准侧 是字符第一侧;将所述双层电子文件文字层的所述两个字符中的至 少一个字符向另一字符的方向拉伸包括:将所述双层电子文件文字 层的所述两个字符中的第一侧字符向第二侧拉伸。
进一步地,在所述相邻的两个字符中的至少一个为空格符的情 况下,重复执行从双层电子文件中复制相邻的两个字符及其后的步 骤,并且对当前版面中的同一位置的两个字符不重复进行复制。
进一步地,所述双层电子文件为可移植文档格式(Portable Document Format)的文件。
为解决上述问题,根据本发明的另一方面,提供了一种去除从 双层电子文件中复制的文本中的空格的系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于方正国际软件有限公司,未经方正国际软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010531159.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型双核燃料电池
- 下一篇:载波聚合下周期性CQI反馈的方法和装置