[发明专利]表格数据处理方法和装置无效
申请号: | 200610171447.0 | 申请日: | 2006-12-27 |
公开(公告)号: | CN101127081A | 公开(公告)日: | 2008-02-20 |
发明(设计)人: | 田中宏 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06K9/20 | 分类号: | G06K9/20 |
代理公司: | 北京三友知识产权代理有限公司 | 代理人: | 孙海龙 |
地址: | 日本神奈*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表格 数据处理 方法 装置 | ||
技术领域
本发明涉及一种从表格的图像中识别出由分格线(ruled line)和单元格(其是由分格线围出的区域)组成的表格的技术,更加具体地讲,涉及一种修正自动识别出的分格线或单元格(cell)的技术。
背景技术
近来,随着商务的计算机化,大量电子文档已经开始得到使用。作为用于使已经使用纸质文档进行了运作的商务计算机化或者用于把用纸件发布的文档转换成电子文档的技术,诸如光学字符读取器或者光学字符识别(OCR)这样的文档图像识别技术的重要性不断提高。尤其是,用于识别包含在诸如表格文档这样的文档中的表格的技术是很重要的。
所使用的表格是由垂直和水平分格线组成的。在识别表格结构的表格识别技术中,已经开发出了识别表格中的分格线以及由这些分格线围绕出的单元格的位置和大小的技术。
分格线提取方法包括例如根据文档图像中的垂直和水平像素游程提取分格线的方法(例如,日本专利申请公告JP-A-H1-217583)。图像输入构件借助扫描仪等获得文档图像。垂直和水平游程提取构件提取黑色像素在垂直方向或水平方向上连续出现预定长度或更长长度的区域作为游程区域。垂直和水平游程合并构件将提取出来的彼此相邻的游程区域合并成一个分格线区域。最后,将所提取的分格线区域存储到分格线数据结构中。
此外,日本专利申请公报JP-A-H7-28939公开了一种即使在输入图像有一些倾斜的情况下也能够正确对表格部分进行向量化的技术。具体来说,在用于对表格图像中的表格部分进行向量化的装置中,配备有投影单元,在该投影单元中,将表格图像当中的线段分类成垂直方向组和水平方向组,仅仅将垂直方向组中的线段投影到水平轴上,并且仅仅将水平方向组中的线段投影到垂直轴上,以获得分格线的投影图像。此外,还配备有遮挡图像产生器和分格线检索单元,遮挡图像产生器用于从垂直方向/水平方向绘制出宽度与存储器中分格线的投影图像相同的直线,以生成遮挡图像,分格线检索单元用于依据遮挡图像检索分格线,以对表格单元进行矢量化。然后,分格线检索单元从遮挡图像中提取出直线的交点,并且根据像素的数量与所提取的交点之间的距离的比率来确定这些交点之间是否存在分格线。
单元格提取方法主要包括提取由分格线围绕的矩形区域的方法,和提取交点(是分格线交叉的点)并且根据这些交点的位置关系提取单元格区域的方法。在例如《A Study on Table Recognition with Complex Structure》(Kojima、Kiyosue、Akiyama,37th second half of the national convention inInformation processing Society of Japan,6W-8,第1660-1161页,1988年10月)(下文中称为非专利文献1)和《Structure Recognition of VariousKinds of Table-Form Documents》(Qin、Watanabe、Sugie,the Transactionsof the Institute of Electronics,Information and Communication Engieers,D-II,第J76-D-II卷,第10期,第2165-2176页,1993年10月)(下文中称为非专利文献2)中公开了提取由分格线围绕的矩形区域的方法。再有,日本专利申请公报JP-A-H9-50527也使用了类似的原理。
非专利文献2的单元格提取方法为如下所述:就是说,将进行单元格提取所针对的表格区域确定为目标区域,并且用从目标区域的一个边缘到另一个边缘的水平分格线分割目标区域。然后,针对各个分割出来的区域对目标区域进行垂直分割。类似地,轮流进行水平分割和垂直分割,并且重复进行这些分割,直到分割变得不可能进行。然后,提取单元格。
此外,在多种文献中公开了根据分格线相交的交点提取单元格区域的方法。例如,日本专利申请公报JP-A-H8-212292、JP-A-H9-138837、JP-A-H10-40333和JP-A-H8-221506公开了这种方法。基本过程是:从单元格的左上角作为起始点沿着顺时针方向追踪单元格,并且将到起始点的路径标识为单元格区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610171447.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于数字照相机的集成透镜和芯片组件
- 下一篇:磷腈盐相转移催化剂