[发明专利]文档中的阅读顺序检测在审
申请号: | 202110739466.3 | 申请日: | 2021-06-30 |
公开(公告)号: | CN115545036A | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 崔磊;徐毅恒;徐阳;韦福如;王子龙 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 北京世辉律师事务所 16093 | 代理人: | 李峥宇 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 中的 阅读 顺序 检测 | ||
根据本公开的实现,提出了一种用于文档中的阅读顺序检测的方案。在该方案中,确定文档中呈现的文本序列和布局信息,文本序列包括多个文本单元,布局信息指示多个文本单元在文档中的空间布局;至少基于文本序列和布局信息来生成多个文本单元对应的多个语义特征表示;以及基于多个语义特征表示来确定多个文本单元在文档中的阅读顺序。根据该方案,布局信息的引入能够更好地表征文本单元在特定文档下的空间布局方式,从而能够更有效、准确地确定阅读顺序。
背景技术
文档理解是一个热门研究领域,旨在于自动读取、理解和分析文档。文档可以包括电子生成的文档或扫描文档,例如图像、电子文件、手写扫描件等。理解和分析文档,特别是商业文档,可以极大地改善人们的日常生活,提高商业效率和生产。在很多应用中,可能会存在富文本文档。与纯文本文档相比,富文本文档中的各类信息按更灵活的格式和布局被排布,从而具有丰富视觉呈现效果。富文本文档的示例包括各种表单、发票、收据、财务报表、广告文档等。虽然各种类型的文档中包含不同形式的信息,但部分信息通常以自然语言形式呈现。因此,文档理解涉及自然语言处理(NLP),特别是对文档呈现的文本信息的语义特征表示进行学习。
在文档理解的具体应用中,文本序列的阅读顺序是比较重要的任务。阅读顺序描述人类自然而然理解的文本序列信息。然而,在一些文档中,特别是富文本文档中,对阅读顺序的确定具有一定挑战。
发明内容
根据本公开的实现,提出了一种用于检测阅读顺序的方案。在该方案中,确定文档中呈现的文本序列和布局信息,文本序列包括多个文本单元,布局信息指示多个文本单元在文档中的空间布局;至少基于文本序列和布局信息来生成多个文本单元对应的多个语义特征表示;以及基于多个语义特征表示来确定多个文本单元在文档中的阅读顺序。根据该方案,布局信息的引入能够更好地表征文本单元在特定文档下的空间布局方式,从而能够更有效、准确地确定阅读顺序。
提供发明内容部分是为了简化的形式来介绍对概念的选择,其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。
附图说明
图1示出了能够实施本公开的多个实现的环境的框图;
图2示出了根据本公开的一些实现的示例文档;
图3示出了根据本公开的一些实现的用于阅读顺序检测的模型架构的框图;
图4示出了根据本公开的一些实现的特征提取模型的输入嵌入表示的示例;
图5示出了根据本公开的一些实现的对文档中文本阅读顺序进行标注的示例;
图6示出了根据本公开的一些实现的用于训练阅读顺序检测模型的示例架构;
图7示出了根据本公开的一些实现的在训练时对样本文档的标注的示例;
图8示出了根据本公开的一些实现的自注意力掩码的示例;
图9示出了根据本公开的一些实现的特征提取模型的预训练的示例架构;
图10示出了根据本公开的一些实现的用于检测阅读顺序的过程的流程图;
图11示出了根据本公开的一些实现的用于模型训练的过程的流程图;以及
图12示出了能够实现本公开的一些实现的计算设备的框图。
这些附图中,相同或相似参考符号用于表示相同或相似元素。
具体实施方式
现在将参照若干示例实现来论述本公开。应当理解,论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开,而不是暗示对本公开的范围的任何限制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110739466.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种业务数据核对方法及设备
- 下一篇:绕线装置和绕线检测方法