[发明专利]对文档进行数字化的装置及方法有效
申请号: | 201110008963.2 | 申请日: | 2011-01-06 |
公开(公告)号: | CN102117269A | 公开(公告)日: | 2011-07-06 |
发明(设计)人: | 榎本诚 | 申请(专利权)人: | 佳能株式会社 |
主分类号: | G06F17/24 | 分类号: | G06F17/24;G06K9/00;G06F17/30 |
代理公司: | 北京怡丰知识产权代理有限公司 11293 | 代理人: | 迟军 |
地址: | 日本东京都*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 进行 数字化 装置 方法 | ||
技术领域
本发明涉及用于对纸质文档(paper document)进行数字化的装置及方法。
背景技术
近年来,以互联网为代表的网络的广泛传播增加了对文档进行数字化分发的机会,但是仍然经常分发印刷纸形式的文档。在这种情况下,一直在考虑即使手头只有纸质文档时、也能够获得文档的内容作为可再利用的数据的技术。
例如,有一种如下的技术,即通过扫描器等读取纸质文档,从终端将所得到的图像数据发送到服务器,并且使服务器进行识别并将数据转换成可再利用的形式,然后将所得到的数据返回到终端(参见日本专利特开平11-167532号(1999年)公报)。
在另一种技术中,根据类型将文档的图像数据划分成区域,以使数据可以基于区域而单独输出(参见日本专利特开2005-346137号公报)。
当通过扫描纸质文档生成的文档图像(图像数据)经历文档数字化处理时,用户根据其目的或者用途而期望得到不同的数据格式。无论如何,很多用户期望文档被数字化成便于利用的格式。
例如,当文档包括表时,意图在表上执行包括行/列的插入/删除的编辑操作的用户,期望对文档进行数字化,以使电子文档包括作为表对象的可编辑表。另一方面,意图不作改变地重新打印文档以作为纸质文档使用的用户,也期望对文档进行数字化,以使表的线布局等的可视信息尽可能忠实地再现。
然而,在电子文档的一些格式规范中,当文档图像中的表被转换成表对象时,表结构或者表的线布局可能无法按原样再现。
而且,在将表作为矢量对象进行绘制以再现表上的可视信息的方法中,不能进行包括行/列的插入/删除的编辑操作。
当参照表结构使用表中的表元(cell)内的值来执行计算等时,优选以电子表格应用程序格式(基于表元矩阵结构表现表结构的格式)来再现表。然而,在基于表元矩阵结构来表现表结构的格式中,当同一页(页单(sheet))包含有多个表时,对所述多个表中的一个表执行的编辑操作可能无意地影响其他表。
图13A示出了表1311和表1312总共两个表存在于同一页单上的状态。由于在电子表格应用程序等中,表元之间的边界落在线位置,因此,执行表元的合并等以再现两个表。图13B示出了在上述条件下、在页单编辑窗口1313上执行的在表元1313的右侧添加新列的操作的结果。可以看到,在表1311中新列1321插入到表元1313的右侧,但是同时无意的列1322也插入到表1312中。在删除列、改变表元宽度等的其他操作中,如果对一个表执行编辑操作,则其他表会无意地受到影响。
直到现在,也很难实现能够同时满足用户的各种要求而不产生上述问题的纸质文档的数字化。
发明内容
根据本发明提供一种装置,该装置包括:区域提取单元,其被构造为提取包含区域的细节的区域数据,所述区域被包括在文档图像数据中的表对象占据;表结构分析单元,其被构造为分析关于所述表对象的所述区域数据,并提取关于所述表对象的表结构信息;页单生成单元,其被构造为通过使用关于所述表对象的所述区域数据以及所述表结构信息,来生成显示页单以及各表对象的编辑页单,所述显示页单用于再现所述文档图像数据中的表对象的外观,所述编辑页单用于对表进行编辑;以及电子文档生成单元,其被构造为生成将所述显示页单与所述编辑页单相关联的电子文档。
根据本发明的电子文档(工作簿文档)包括编辑页单和打印显示页单。这使得能够针对包括表的文档忠实地再现文档布局,同时确保表编辑的便利性。
通过参照附图对下面示例性实施例的描述,本发明的其他特征将变得清楚。
附图说明
图1是示出根据实施例1的示例性系统结构的图;
图2是例示实施例1中的操作的功能框图;
图3是关于表对象的信息的树状结构图;
图4是例示页单生成单元中的处理流程的流程图;
图5是由扫描器读取的示例性文档图像;
图6是示出表区域信息和表结构信息的示例的图;
图7是示出字符识别处理的示例性结果的图;
图8A和图8B是示出示例性显示页单的图;
图9A和图9B是示出示例性编辑页单的图;
图10是示出示例性工作簿文档的图;
图11是示出通过显示/编辑程序显示的示例性显示页单的图;
图12A和图12B是示出通过显示/编辑程序显示的示例性编辑页单的图;
图13A和图13B是例示相关现有技术的图;
图14是示例性文档图像;
图15A和图15B是示出通过显示/编辑程序显示编辑页单和显示页单的状态的图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳能株式会社,未经佳能株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110008963.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:药剂混合装置及药剂混合方法
- 下一篇:DORB业务的伪导频切换方法及设备