[发明专利]文档中的阅读顺序检测在审
申请号: | 202110739466.3 | 申请日: | 2021-06-30 |
公开(公告)号: | CN115545036A | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | 崔磊;徐毅恒;徐阳;韦福如;王子龙 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 北京世辉律师事务所 16093 | 代理人: | 李峥宇 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 中的 阅读 顺序 检测 | ||
1.一种计算机实现的方法,包括:
确定文档中呈现的文本序列和布局信息,所述文本序列包括多个文本单元,所述布局信息指示所述多个文本单元在所述文档中的空间布局;
至少基于所述文本序列和所述布局信息来生成所述多个文本单元对应的多个语义特征表示;以及
基于所述多个语义特征表示来确定所述多个文本单元在所述文档中的阅读顺序。
2.根据权利要求1所述的方法,其中生成所述多个语义特征表示包括:
针对所述文本序列中的第一文本单元,
基于以下至少一项来确定所述第一文本单元对所述文本序列中的第二文本单元的注意力权重:所述第一文本单元与所述第二文本单元在所述文档中的相对空间位置,以及所述第一文本单元和所述第二文本单元在所述文本序列中的相对排序位置,所述注意力权重指示所述第二文本单元对所述第一文本单元的重要程度;
通过利用所确定的注意力权重对所述第二文本单元的嵌入表示进行加权,来确定所述第一文本单元的语义特征表示。
3.根据权利要求1所述的方法,其中生成所述多个语义特征表示包括:
确定所述文档对应的图像格式文件;
从所述图像格式文件确定视觉信息,所述视觉信息指示所述文档中呈现的所述多个文本单元各自的视觉外观;以及
还基于所述视觉信息来生成所述多个语义特征表示。
4.根据权利要求1所述的方法,其中生成所述多个语义特征表示包括:
将所述文本序列和所述布局信息分别转换成第一嵌入表示和第二嵌入表示;
将所述第一嵌入表示和所述第二嵌入表示级联,得到级联嵌入表示;以及
将所述级联嵌入表示应用到已训练的特征提取模型,以生成所述多个语义特征表示。
5.一种计算机实现的方法,包括:
确定第一样本文档中呈现的文本序列、布局信息以及顺序标注信息,所述文本序列包括第一组文本单元,所述布局信息指示所述第一组文本单元在所述第一样本文档中的空间布局,所述顺序标注信息指示所述第一组文本单元在所述第一样本文档中的真实阅读顺序;
利用特征提取模型,至少基于所述文本序列和所述布局信息来生成所述第一组文本单元各自的语义特征表示;
利用顺序确定模型,基于所述语义特征表示来确定所述第一组文本单元在所述第一样本文档中的估计阅读顺序;以及
基于所述估计阅读顺序与所述真实阅读顺序之间的差异来训练所述特征提取模型和所述顺序确定模型。
6.根据权利要求5所述的方法,其中所述第一样本文档包括可编辑文本文档,并且确定所述顺序标注信息包括:
确定所述可编辑文本文档对应的格式信息,所述格式信息至少指示所述第一组文本单元的所述真实阅读顺序。
7.根据权利要求5所述的方法,其中确定所述布局信息包括:
确定所述第一样本文档对应的矢量文件;以及
从所述矢量文件确定所述第一组文本单元的所述布局信息。
8.根据权利要求7所述的方法,其中在所述第一样本文档中不同位置处出现并且表示相同文本的多个文本单元被分配不同的索引,并且所述多个文本单元在所述矢量文件中被标注不同的颜色,每个文本单元被标注的颜色基于分配给所述该文本单元的所述索引确定,并且
其中从所述矢量文件确定所述第一组文本单元的所述布局信息包括:
基于分配给所述多个文本单元的所述索引和所述颜色,将从所述矢量文件确定的布局信息分配给从所述第一样本文档中提取的所述多个文本单元。
9.根据权利要求5所述的方法,其中生成所述语义特征表示包括:
从所述第一样本文档对应的第一图像格式文件确定视觉信息,所述视觉信息表示所述第一样本文档中呈现的所述第一组文本单元的视觉外观;以及
利用所述特征提取模型,还基于所述视觉信息来生成所述语义特征表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110739466.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种业务数据核对方法及设备
- 下一篇:绕线装置和绕线检测方法