[发明专利]文档可视结构的语法剖析有效
申请号: | 200680031501.X | 申请日: | 2006-06-30 |
公开(公告)号: | CN101253514A | 公开(公告)日: | 2008-08-27 |
发明(设计)人: | P·A·沃拉;M·希尔曼 | 申请(专利权)人: | 微软公司 |
主分类号: | G06K9/72 | 分类号: | G06K9/72 |
代理公司: | 上海专利商标事务所有限公司 | 代理人: | 陈斌 |
地址: | 美国华*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 可视 结构 语法 剖析 | ||
背景
随着时间的推移,人们越来越依赖于计算机来帮助工作和休闲活动。然而, 计算机在需要标识离散状态以使信息能被处理的数字域中操作。这与以截然不同的 模拟方式工作的人类形成对比,在模拟方式中,发生的事情从不是全黑或全白的, 而是介于灰色阴影之间。由此,数字和模拟之间的一个核心区别是数字要求在时间 上不连续的离散状态(例如,不同等级),而模拟在时间上是连续的。由于人类自 然地以模拟方式工作,因此计算技术已经进展以减轻因上述时间不连续而导致的与 将人类与计算机接口(例如,数字计算接口)相关联的困难。
技术首先集中于试图将现有的打字或排版信息输入到计算机中。最初使用扫 描仪或光学成像仪来“数字化”图片(例如,输入图像到计算系统中)。一旦图像 可被数字化到计算系统中,因此断定印刷或排版的材料也应能被数字化。然而,扫 描页面的图像在其被带入计算系统后不能作为文本或符号来操纵,因为它没有被系 统“识别”,即系统不理解该页面。字符和单词是“图片”而非实际的可编辑文本 或符号。为克服对文本的这一限制,开发了光学字符识别(OCR)技术,以利用 扫描技术来将文本数字化为可编辑页面。如果利用允许OCR软件将扫描的图像转 换成可编辑文本的特定文本字体,该技术能相当好地工作。
尽管文本被计算系统“识别”,但是该过程丢失了重要的附加信息。该信息 包括诸如文本的格式、文本的间距、文本的方向以及通用页面布局等内容。由此, 如果一页面是双栏的并且在右上角有一图片,则经OCR扫描的页面将变成文字处 理程序中的一组文本而没有双栏和图片。或者,如果包括了图片,则它通常最终被 嵌入在文本之间的某一随机点处。当利用不同的文档构造标准时这甚至更成问题。 典型的OCR技术一般不能用于“转换”或正确地识别来自另一文档标准的结构。 相反,所得的识别试图将所识别的部分限制或强制成其相关联的标准。当发生这一 情况时,OCR过程通常将诸如问号等“未知”标记输入到识别的部分中,以指示 它无法处理文档的这些组成部分。
概述
以下提供了该主题的简化概述以提供该主题的实施例的某些方面的基本理 解。本概述并非该主题的广泛综述。它并不旨在标识各实施例的关键/决定性要素, 也不旨在勾画本主题的范围。其唯一的目的是以简化的形式提出该主题的某些概 念,作为以后提出的更详细描述的序言。
提供了采用语法剖析来促进文档结构识别的系统和方法。利用文档的二维表 示来提取帮助文档识别的分层结构。利用统计剖析算法的二维自适应来对文档的可 视结构进行语法剖析。这允许识别布局结构(例如,栏、作者、标题、脚注等)等, 使得文档的结构组成部分可被准确地解释。可采用其它技术来帮助文档布局识别。 例如,可采用利用机器学习、基于图像表示的剖析评分、上推(boosting)技术、 和/或“快速特征”等的语法剖析技术来促进文档识别。这提供了具有实质上提高 的准确度的高效文档识别。
为实现上述和相关目的,此处结合以下描述和附图描述了各实施例的说明性 方面。然而,这些方面仅指示了可采用本主题的原理的各种方式中的几种,并且本 主题旨在包括所有这样的方面及其等效方面。当结合附图考虑以下详细描述时,本 主题的其它优点和新颖特征将变得显而易见。
附图简述
图1是根据一个实施例的一方面的文档视觉结构分析系统的框图。
图2是根据一个实施例的一方面的文档视觉结构分析系统的另一框图。
图3是根据一个实施例的一方面的文档视觉结构分析系统的又一框图。
图4是根据一个实施例的一方面的来自UWIII数据库的示例页面的图示。
图5是根据一个实施例的一方面的用于训练数学表达式识别器的示例等式的 图示。
图6是根据一个实施例的一方面的数学表达式的图示。
图7是根据一个实施例的一方面的促进文档视觉结构分析的方法的流程图。
图8是根据一个实施例的一方面的促进文档视觉结构分析的方法的另一流程 图。
图9示出了一个实施例可在其中运作的示例操作环境。
图10示出了一个实施例可在其中运作的另一示例操作环境。
详细描述
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软公司,未经微软公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680031501.X/2.html,转载请声明来源钻瓜专利网。