[发明专利]对经历光学字符识别(OCR)过程的文本文档中出现的错误的用户纠正有效
申请号: | 201110137913.4 | 申请日: | 2011-05-16 |
公开(公告)号: | CN102289667A | 公开(公告)日: | 2011-12-21 |
发明(设计)人: | B·拉达科维奇;M·武格代利亚;N·托迪奇;A·乌泽拉茨;B·德雷舍维奇 | 申请(专利权)人: | 微软公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06F17/22 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 黄嵩泉 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 经历 光学 字符 识别 ocr 过程 文本 文档 出现 错误 用户 纠正 | ||
技术领域
本发明涉及光学字符识别过程,尤其涉及光学字符识别过程中的错误纠正。
背景技术
光学字符识别(OCR)是一般以标准的编码方案对文本的图像到作为机器可编辑文本的数字形式的基于计算机的转换。这一过程消除了将文档手动键入计算机系统的需求。由于扫描过程所导致的较差图像质量、非理想性等可引发多个不同问题。例如,常规OCR引擎可被耦合到扫描文本的页面的平板式扫描仪。由于页面被放置于与扫描仪的扫描面齐平,因此扫描仪所生成的图像通常展示出平坦的对比度和照明度、减少的歪斜和失真、以及高的分辨率。由此,OCR引擎可方便地将图像中的文本转换成机器可编辑的文本。然而,当图像对于对比度、照明度、歪斜等而质量较低时,由于图像的较复杂的处理,OCR引擎的性能可能会降级并且处理时间可能会增加。例如,当图像是从书中获取时或者当由基于成像器的扫描仪生成时,这可能是该情况,因为在这些情况下,文本/图像是从一距离、从变化的方向、以及在变化的照明中扫描的。即使扫描过程的性能是良好的,当相对低质量的文本的页面正被扫描时,OCR引擎的性能也可能会降级。因而,一般需要许多单独的处理步骤来以相对高的质量执行OCR。
尽管OCR过程中的改进,仍会出现错误,诸如错误识别的单词或字符、段落、文本行或页面布局的其他方面的错误标识。在各个处理阶段完成时,可以给予用户标识和纠正在OCR过程期间出现的错误的机会。用户一般需要手动地纠正每一个错误,即使错误之一传播通过OCR过程并引起了多个其他错误。每一单独错误的手动纠正在用户方面来说会是耗时且令人生厌的过程。
发明内容
向用户给予在输入文档经历OCR过程之后对其作出纠正的机会。这种纠正可以包括错误识别的字符或单词、错误对齐的栏、错误识别的文本或图像区域等。OCR过程一般进行多个阶段,该多个阶段以顺序的或流水线的方式处理输入文档。在用户纠正了错误识别的或错误表征的项(例如,错误表征的文本)之后,负责错误表征的处理阶段就纠正引起该错误表征的底层错误(例如,过大的单词边界框)。然后,OCR过程中的每一后续处理阶段尝试纠正在其相应的阶段中由初始错误引起的任何随之发生的错误。当然,在产生初始错误的阶段之前的处理阶段没有需要纠正的错误。这样,错误的纠正就在OCR处理流水线中传播。也就是,在产生初始错误的阶段之后的每一个阶段都或者递增地或者完全地重新计算其输出,因为其输入已经在前一阶段中被纠正。结果,用户不需要纠正文档中已经在OCR过程期间被错误表征的每一项。
在一种实现中,通过经历OCR过程来创建图像文档的电子模型。电子模型包括图像文档的已经由OCR过程中多个顺序执行的阶段的每一个所确定的元素(例如,单词、文本行、段落、图像)。电子模型充当由处理该图像文档的前一阶段提供给各个阶段的输入信息。向用户呈现图形用户界面,使用户能提供对文档中出现的错误表征的项进行纠正的用户输入数据。基于用户输入数据,产生了引起错误表征的项的初始错误的处理阶段对该初始错误进行纠正。然后,该阶段之后的OCR过程的阶段对由于初始错误而在它们的相应阶段中产生的任何随之发生的错误进行纠正。
提供本发明内容以便以简化形式介绍将在以下的详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
附图说明
图1示出了用于对文本图像执行光学字符识别(OCR)的系统的一个说明性示例。
图2是OCR引擎20的一个特定示例的高层逻辑图。
图3示出其中标记为区域1-8的文本区域已经由OCR标识的文本文档。
图4示出可由错误纠正组件提供给用户的图形用户界面的一个示例。
图5是示出用于纠正文档的文本图像的方法的一个示例的流程图。
具体实施方式
图1示出了用于对文本图像执行光学字符识别(OCR)的系统5的一个说明性示例。系统5包括生成文档15的图像的数据捕捉装置(例如,扫描仪10)。扫描仪10可以是基于图像的扫描仪,它利用电荷耦合器件作为图像传感器用于生成图像。扫描仪10处理图像以生成输入数据,并且将输入数据发送给处理装置(例如OCR引擎20)以供图像内的字符识别。在该具体示例中,将OCR引擎20合并到扫描仪10中。然而,在其他示例中,OCR引擎20可以是分开的单元,诸如独立单元或被合并到诸如PC、服务器之类的另一设备中的单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110137913.4/2.html,转载请声明来源钻瓜专利网。