[发明专利]模式提取装置无效
申请号: | 98108863.5 | 申请日: | 1998-05-20 |
公开(公告)号: | CN1202670A | 公开(公告)日: | 1998-12-23 |
发明(设计)人: | 小原敦子;直井聪 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06K9/34 | 分类号: | G06K9/34 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 范本国 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模式 提取 装置 | ||
本发明涉及模式提取装置和模式提取方法,并具体适用于手写文字识别装置、印刷文字识别装置、图形识别装置等中的指示包含文字、图象、符号、图形等的模式范围的框和界线。
近来对手写文字识别装置的需求正在增加,诸如光学阅读器作为外设单元用来输入财务文件,业务文件等。
以往的光学文字阅读器在识别文字之前,对来自输入的图象的文字模式的每一文字进行文字分段处理。为了获得对每一文字高的文字识别率,作为预识别,处理光学文字阅读器必须对文字正确分段。
因而,当以往的光学文字阅读器阅读文字时,文字是被写入在文件的特定范围中,诸如其中对文字输入的位置(不是以浅颜色,而是例如以与文字类似的颜色或深度的黑色矩形框或界线)作出规定的列表,以便获得高的识别率。
然而,以往的光学文字阅读器有这样的问题,即当指示特定输入范围的界线或矩形框接触或与文字交叉时,文字的识别率就降低,因为文字不能被正确地分段。例如,当移动矩形框时,当前的光学文字阅读器不能对稍微倾斜的矩形框、投影、或凹陷矩形矩形识别。结果,如果矩形框的位置或线宽改变,则被识别的文字一部分可能丢失,或者矩形框的一部分可能保持不动。
当规定列表中输入文字的范围时,有关位置和界线细度的信息应当预先存储,且如果列表格式有改变,则有关输入文字的范围信息应当被更新。因而,以往的系统给用户造成很大负担。此外,在规定文字范围的系统中,不能处理未知的列表格式。
在日本专利申请No.7-203259中,申请人透露了提取和移动矩形框而不输入关于矩形框位置和大小格式信息的技术。这一技术中可使用的列表是单矩形框,即一个方框矩形框(包含单水平的文字列,或自由格式的矩形框),或者具有规则排布的水平线矩形框的表格。此外,该技术可处理没有矩形表格,具有更复杂的表格结构的列表,或虚线与实线共同存在的列表。
以下所述的是上述日本专利申请No.7-203259的说明书及附图中所述的模式提取装置所进行的主要处理过程。
首先,对输入的图象进行编号,且由按八个方向即垂直、水平和对角任何一方向彼此连接的象素形成的部分模式可提取为连接模式。
然后,找出水平和垂直线,通过对输入图象的编号所提取的连接模式的屏蔽处理降低文字和矩形框之间的线条细度的差别。在屏蔽处理中,使用两种类型的屏蔽,即水平屏蔽和垂直屏蔽,扫描连接模式的整个图象。计算模式对屏蔽的比值。如果比值大于预定值,则整个屏蔽被识别为模式。如果它等于或低于预定值,则通过删除屏蔽中的模式提取水平或垂直元件。
然后把被屏蔽的模式水平地或垂直地分为多个部件,并在每一水平和垂直划分的范围中计算模式相连的投影值。基于相连投影的模式,通过近似的矩形检测线条或直线的一部分。通过把目标行或目标列的投影值加到靠近目标行或目标列的行或列的投影值而获得相连的投影值。
然后,在各形成由相连投影方法获得的矩形的部件的线条中,把矩形的相连线条形成部件组合为一长线。这样,获得的线条就形成了近似的矩形,并能够被识别为列表的水平或垂直界线的选件。
然后,对识别为界线的选件的水平或垂直线条进行搜索以检测水平线条的左边界和右边界及垂直线条的上边界和下边界。
然后,检测排布在预定区间的小模式以提取虚线并使用虚线作为以上描述的线条获得近似的矩形。
从上述过程中检测到的水平线条确定形成矩形框的部件的一组两个水平线条。顺序地从顶部提取两个水平线条。当两个被提取的水平线条具有相同的长度或下面的水平线条比上面的水平线条长时,则两个水平线条被识别为一组水平线条。除非两个被提取的水平线条具有相同的长度或下面的水平线条比上面的水平线条长,否则即使下面的线条较短,两个线条将被识别为一组。
然后,从在上述过程检测的水平线条,如果它们的上和下端达到上述被识别为一组水平界线的两水平线条组,则确定为垂直界线。
然后,由上述两水平线条组和上下端到达两水平线条组的两垂直界线围绕的矩形范围被提取为一个单元。形成单元的部件的一个线条被识别为界线。不形成单元部件的线条被识别为的模式,而不是界线。
当由上述过程确定的水平和垂直界线围绕的矩形被进一步分为更小的矩形区域时,矩形被重新定义为表格。通过重复上述的处理过程,矩形区域进而被分为更小的矩形。
于是,根据传统的技术,任何由矩形区域形成的表格可被处理,无论矩形框的结构是规则的或不规则的。该过程还可对作为界线的被处理的实线或虚线进行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/98108863.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:使用细胞系来制备传染性囊病病毒及禽呼肠病毒的方法
- 下一篇:冰箱及其控制方法