[发明专利]使用深度学习技术确定文档中的上下文阅读顺序有效
申请号: | 201810987412.7 | 申请日: | 2018-08-28 |
公开(公告)号: | CN109933780B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | S·索德哈尼;K·加格;B·克里什纳穆泰 | 申请(专利权)人: | 奥多比公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/232;G06F40/30 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 深度 学习 技术 确定 文档 中的 上下文 阅读 顺序 | ||
公开了使用深度学习技术确定文档中的上下文阅读顺序。生成标记为当前的文本运行(R1)、“右侧”文本运行(R1)和“下方”文本运行(R3)。R1标记的文本运行由第一LSTM处理,R2标记的文本运行由第二LSTM处理,并且R3标记的文本运行由第三LSTM处理,其中每个LSTM生成相应的内部表示(R1'、R2'和R3')。如将理解的,可以使用除了LSTM之外的深度学习工具。相应的内部表示R1'、R2'和R3'被级联或以其他方式组合成矢量或张量表示,并且被提供给分类器网络,分类器网络生成用于下一文本运行、作为按照文档的阅读顺序的“右侧”、“下方”或EOS的预测标签。
技术领域
本公开涉及用于处理文档的技术。更详细地,本公开涉及用于确定文档的阅读顺序的技术。
背景技术
将纸质文档或表单数字化并且将其转换为自适应或可回流文档的常见用例呈现了很多挑战。仅仅扫描文档是不够的,因为它只提供文档的“图像”版本,并且需要进一步处理来执行诸如结构提取和文本提取等任务。对于文本提取的特定情况,最简单的方法是对经扫描的文档执行光学字符识别(“OCR”)处理并且存储所识别的文本内容。
然而,这种简单的方法具有几个显著的缺点。具体地,一般文档包括在多个行和列上任意排列的句子、段落、标题、图像、表格和其他元素。因此,在解析经扫描的文档时出现的自然问题是确定文档的正确阅读顺序。也就是说,在阅读文档时,人类读者可以自然地推断文档中的正确阅读顺序,因为人类读者识别文档的上下文,这允许人类读者基于读者已阅读到的文档中的当前点来推断阅读顺序的下一方向。然而,计算设备并不自然地适于这种类型的推断,以允许其确定文档的正确阅读顺序。由于文档通常以多列和多行排列,文档的阅读顺序不明显,并且提取文档的阅读顺序当然不容易被编码为由计算设备执行的一组规则。例如,OCR系统无法确定文档的正确阅读顺序。相反,它需要一些智能来理解文档的正确阅读顺序,以便即使在数字版本中也可以保持正确的阅读环境。
解析经扫描的文档的特定实例之一是解析纸质表单,并且然后将它们转换为数字表单。阅读顺序很重要,因为从经扫描的文档创建可回流文档的关键方面是保持文档中各个部分之间的文本的阅读顺序,并且这同样适用于纸质表单。常规方法试图通过使用视觉模态来解决该问题,这意味着这些方法仅将表单处理为图像。在这样做时,这些方法没有明确地考虑到写在该表单中的文本,并且因此丢弃了保持该表单的上下文所需要的必要信息,使得在解析表单时无法保持表单中正确的阅读顺序。因此,用于确定文档的阅读顺序的常规方法探索式地假定从左到右和从上到下的阅读顺序。即使对于其中例如文档采用2列布局的简单的常见情况,探索式方法也会出现问题。
在文档的各个部分之间保持文本的阅读顺序的另一种方法是采用n元语法语言模型来提取相关特征,以馈送到语言模型中。备选地,可以应用简单的递归神经网络(“RNN”)模型来检测和提取特征。但是,这些方法有一些局限性。首先,在确定正确的阅读顺序时,重要的是对该表单中看到的所有文本进行上下文建模。虽然已知RNN基于语言的模型在捕获长期依赖性方面胜过n元语法模型,但语言模型方法受到显著限制。特别地,单词级模型需要文本没有拼写错误,否则单词级特征不能正确提取。特别地,当使用诸如OCR系统等视觉系统提取文本时,文本提取本身并不完美,并且存在缺失字符、分词等形式的拼写错误,导致在确定阅读顺序的整体性能中的错误。
因此,在以稳健的方式自动确定文档的阅读顺序方面存在重要且未解决的问题。
附图说明
图1是根据本公开的一个实施例的用于确定文档中的阅读顺序的过程的流程图。
图2a描绘了根据本公开的一个实施例的文本运行和文本块。
图2b示出了根据本公开的一个实施例的、对可以作为文档阅读顺序处理系统的一部分的文本块分析模块的操作。
图2c示出了根据本公开的一个实施例的R1、R2、R3文本运行和EOS。
图2d示出了根据本公开的一个实施例的关于当前R1文本运行的R3文本运行的备选标识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奥多比公司,未经奥多比公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810987412.7/2.html,转载请声明来源钻瓜专利网。