[发明专利]电子表单中的表格检测有效
申请号: | 201810698750.9 | 申请日: | 2018-06-29 |
公开(公告)号: | CN110659527B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 董浩宇;韩石;傅周宇;张冬梅 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F40/177 | 分类号: | G06F40/177;G06F40/18 |
代理公司: | 北京世辉律师事务所 16093 | 代理人: | 李峥宇 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 电子 表单 中的 表格 检测 | ||
本公开涉及电子表单中的表格检测。根据本公开的实现,提出了一种用于确定电子表单中的表格的方案。在该方案中,可以提取电子表单中包括的多个单元格各自的多个属性。继而,可以基于提取的多个属性,确定多个单元格各自的特征。基于特征,可以将多个单元格划分为至少一个候选区域。基于至少一个候选区域,可以确定电子表单中的至少一个候选表格。通过该方案,可以基于电子表单中包括的多个单元格各自的属性来确定各个单元格的特征,进而可以基于针对各个单元格的特征来确定其中可能存在表格的候选区域。
背景技术
随着各种电子表单(spreadsheet)编辑工具的出现,电子表单已经成为人们日常生活中的重要数据存储格式。尤其是,在例如银行、会计、统计等行业的日常工作流程中,电子表单已经成为多种数据的主要载体。电子表单编辑工具向用户提供灵活的工作空间,并且编辑工具的用户可以按照自己的期望来在电子表单中添加一个或者多个表格(table)。
然而,由于不同的用户在生成电子表单时可能会具有自身的偏好,例如,某些用户可能向电子表单中插入一个表格,而某些用户可能会向电子表单中插入多个表格,并且按照自己期望的方式将多个表格部署在电子表单中。每个表格可以具有不同的大小和位置,并且在各个表格中可能会存在一个或多个空白单元格。此时,如何检测电子表单中的各个表格所占据的区域成为一个研究热点。进一步,由于对于电子表单的后续处理在很大程度上依赖于准确地检测电子表单中的各个表格,因而,期望可以以更高的准确度来执行检测处理。
发明内容
根据本公开的实现,提供了一种用于确定电子表单中的表格的方案。在此方案中,可以提取电子表单中包括的多个单元格各自的多个属性。继而,可以基于提取的多个属性,确定多个单元格各自的特征。基于特征,可以将多个单元格划分为至少一个候选区域。基于至少一个候选区域,可以确定电子表单中的至少一个候选表格。
提供发明内容部分是为了简化的形式来介绍对概念的选择,其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征,也无意限制要求保护的主题的范围。
附图说明
图1示意性示出了能够实施本公开的多个实现的计算环境的框图;
图2示意性示出了根据本公开的一个实现的用于在电子表单中检测表格的方案的概要框图;
图3示意性示出了根据本公开的一个实现的用于在电子表单中检测表格的方法的流程图;
图4示意性示出了根据本公开的一个实现的用于获取映射关系的方案的框图;
图5示意性示出了根据本公开的一个实现的用于调整给定候选区域中的边界的位置的框图;
图6示意性示出了根据本公开的一个实现的用于基于检测到的候选区域中的错误来更新映射关系的方法的框图;
图7示意性示出了根据本公开的一个实现的用于基于电子表单中的各个单元格是否位于表格内的概率来确定在候选区域中是否存在错误的框图;
图8示意性示出了根据本公开的一个实现的用于基于给定候选区域是否与其他候选区域重叠来确定在给定候选区域中是否存在错误的框图;
图9示意性示出了根据本公开的一个实现的用于基于一个候选区域中是否包括空列/空行来确定在候选区域中是否存在错误的框图;
图10A示意性示出了根据本公开的一个实现的用于基于一个候选区域中所包括的空白单元格来确定在候选区域中是否存在错误的框图;以及
图10B示意性示出了根据本公开的一个实现的用于基于一个候选区域外的非空白单元格来确定在候选区域中是否存在错误的框图。
这些附图中,相同或相似参考符号用于表示相同或相似元素。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810698750.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文档处理方法、装置及电子设备
- 下一篇:一种磁条卡读卡器抗干扰的解码方法