[发明专利]下划线删除装置有效
申请号: | 201010136232.1 | 申请日: | 2010-03-11 |
公开(公告)号: | CN101859379A | 公开(公告)日: | 2010-10-13 |
发明(设计)人: | 大峡光晴 | 申请(专利权)人: | 日立软件工程株式会社 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 下划线 删除 装置 | ||
技术领域
本发明涉及业务文件处理装置,例如涉及用于删除与业务文件中的字符串接触的下划线的技术。
背景技术
近年来,对于在机关内积累的大量的纸质业务文件,通过扫描以及OCR进行字符识别,通过文件管理系统管理文件数据,由此来实现检索性的提高、纸质文件的安全保管、以及知识的共享。
目前的OCR针对没有噪音(noise)的文件的字符串识别精度高,但是在与字符串接触地画出下划线时,存在很多时候无法正确识别该部分的字符的问题。OCR在进行字符识别时,进行将字符一个一个地剪切,然后判定剪切出的字符相当于哪个字符的处理,但是在对字符附加了下划线时,很多时候字符的剪切失败,或者将下划线识别为字符的一部分而进行了错误的判断。当进行误识别时,并不仅是无法取得该部分的字符信息,并且没有意义的字符信息作为噪音残留下来,成为检索时的障碍。此外,在存在于业务文件中的字符串中,画出下划线的字符串多是文件的标题、客户名称、各种管理编号等在确定该文件方面不可欠缺的信息。因此,当无法正确识别这些信息时,在检索时无法缩小该文件的检索范围,此时,产生检查全部登录的文件数据的负担。因此,在应用OCR时,在下划线与字符串接触时也需要高精度对该字符串进行字符识别。
在对字符串画出下划线时,作为提高OCR的识别精度的方法,提出了从文件中的画有下划线的字符串中提取并删除下划线的方法。例如,在非专利文献1中提出了删除对于表格图像上存在的字符串画出的下划线的技术。此外,在非专利文献2中提出了将与字符串接触的下划线也作为删除对象的技术。
但是,非专利文献1的技术是假设下划线没有与字符串接触的情况的技术。因此,在下划线与字符串接触时无法删除下划线。此外,非专利文献2的技术假设仅包含字符和下划线的文件。因此,在应用于业务文件那样的大多包含表的文件时,可能产生将构成表的表格线删除的弊端。
【专利文献1】特开2002-358482号公报
【非专利文献1】嶋好博、他3名,“帳票画像からの下線抽出の一手法”,FIT2002(科学技術フオ一ラム),I-85,pp.169-170,2002.09
【非专利文献2】Zhen-long Bai,Qiang Huo,“Underline Detection andRemoval in a Document Image Using Multiple Strategies”,icpr,pp.578-581,17thInternational Conference on Pattern Recognition(ICPR’04)-Volume 2,2004
发明内容
本发明是鉴于上述情况而提出的,其目的在于提供一种即使在业务文件内包含表,或者下划线与字符串接触的情况下,也能够删除下划线的技术。
为了解决上述课题,本发明的下划线删除装置大致进行以下两个处理。
在第一处理中,从二值图像数据中提取下划线区域的下划线位置坐标。该下划线位置坐标,是按每个预定长度提取具有某宽度和长度的下划线区域中包含的坐标而得到的坐标,用于决定下划线区域的框架。具体地说,在二值图像数据上设置具有一定面积的长方形的线样板(line template),通过在该线样板内追踪(trace)满足预定值的像素,来对每个线样板提取下划线位置坐标。
在第二处理中,删除通过求出下划线区域和背景的边界坐标、以及下划线区域和字符串的边界坐标来确定的下划线区域。具体地说,沿着连结提取出的下划线位置坐标而得到的折线(polyline),在相对于折线垂直方向上进行像素探索,由此求出边界坐标。详细地说,当在预定范围中不存在满足预定像素数量的像素时,判定为下划线区域和背景的边界,求出边界坐标。另一方面,当超过预定范围存在满足预定像素数量的像素时,判定为字符串与下划线区域接触,对边界坐标进行插补。从二值图像数据中删除通过求出的边界坐标而确定的下划线区域。具体地说,通过背景像素置换由求出的边界坐标包围的下划线区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日立软件工程株式会社,未经日立软件工程株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010136232.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:Ca/Zn复合热稳定剂
- 下一篇:纳米加工中大规模分子动力学的并行优化方法