[发明专利]数据表的自动格式化在审
申请号: | 201811575065.3 | 申请日: | 2018-12-21 |
公开(公告)号: | CN111428457A | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 董浩宇;傅周宇;韩石;张冬梅 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F40/18 | 分类号: | G06F40/18;G06N3/08 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华;罗利娜 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据表 自动 格式化 | ||
1.一种计算机实现的方法,包括:
获取数据表的多个单元格的至少一个属性的取值,所述至少一个属性的所述取值指示所述多个单元格中填充的数据的语义和所述数据表的结构中的至少一项,所述多个单元格以行和列布置在所述数据表中;
利用第一学习网络,提取所述至少一个属性的所述取值的特征表示;以及
至少利用所述第一学习网络,基于所述特征表示来确定所述多个单元格各自的格式。
2.根据权利要求1所述的方法,其中提取所述特征表示包括:
将所述至少一个属性的所述取值映射成对应的向量化表示;
从所述向量化表示提取全局特征表示;以及
基于所述全局特征表示来确定所述特征表示。
3.根据权利要求2所述的方法,其中确定所述特征表示包括:
从所述全局特征表示提取行方向特征表示和列方向特征表示中的至少一个,所述行方向特征表示和所述列方向特征表示分别指示所述数据在所述数据表的行方向和列方向上的分布模式;
将所述全局特征表示和所述行方向特征表示和所述列方向特征表示中所提取的至少一个进行级联,以获得混合特征表示;以及
基于所述混合特征表示来确定所述特征表示。
4.根据权利要求3所述的方法,其中所述全局特征表示和所述行方向特征表示包括以行和列布置的特征值,提取所述行方向特征表示包括:对于所述全局特征表示的每一行,
将该行中的特征值进行平均,以获得行平均特征值;以及
将所述行平均特征值扩展到所述行方向特征表示的对应行中。
5.根据权利要求3所述的方法,其中所述全局特征表示和所述列方向特征表示包括以行和列布置的特征值,提取所述列方向特征表示包括:对于所述全局特征表示的每一列,
将该列中的特征值进列平均,以获得列平均特征值;以及
将所述列平均特征值扩展到所述列方向特征表示的对应列中。
6.根据权利要求1所述的方法,其中基于所述特征表示确定所述多个单元格各自的格式包括:
利用所述第一学习网络,基于所述特征表示确定所述多个单元格各自的粗略格式;
从所述至少一个属性的所述取值和所述粗略格式提取联合特征表示;以及
基于所述联合特征表示来确定所述多个单元格各自的格式,以使在所述数据表的同一行和列的至少一个上的多个单元格具有相同格式。
7.根据权利要求6所述的方法,其中提取所述联合特征表示包括:
利用第二学习网络从所述至少一个属性的所述取值和所述粗略格式提取联合特征表示,所述第二学习网络基于一组样本数据表来训练获得,所述一组样本数据表中的单元格被设置相应格式。
8.根据权利要求7所述的方法,其中所述第二学习网络被训练以满足以下至少一个目标:
第一目标,所述第一目标使利用所述第二学习网络为所述一组样本数据表中相应行上的相邻单元格确定的第一组预测格式在行方向上具有一致性;以及
第二目标,所述第二目标使利用所述第二学习网络为所述一组样本数据表中相应列上的相邻单元格确定的第二组预测格式在列方向上具有一致性。
9.根据权利要求1所述的方法,其中确定所述多个单元格各自的格式还包括:
获取与预定类型的格式相关的控制指示,所述控制指示定义以下至少一项:所述预定类型的格式是否存在和所述预定类型的格式的至少一个参数值;以及
还基于所述控制指示来确定所述多个单元格各自的所述格式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811575065.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电池模组
- 下一篇:一种双相异构强化无焊缝箱体的制备方法