[发明专利]利用训练表的集合来准确预测各种表内的错误在审
申请号: | 202080027004.2 | 申请日: | 2020-03-09 |
公开(公告)号: | CN113728321A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 何业烨;王沛 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F40/177 | 分类号: | G06F40/177 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 马明月 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 训练 集合 准确 预测 各种 错误 | ||
本公开涉及用于使用各种假设测试来识别表格和其他结构化数据集内的错误的系统、方法、以及计算机可读介质。例如,本文中公开的系统可以通过从输入表格中移除一个或多个条目来从输入表格生成修改的表格。本文中公开的系统还可以利用训练表格的集合来确定与输入表格和修改的表格是否是从训练表格的集合中抽取相关联的概率。本文中公开的系统可以另外比较概率,以准确地确定一个或多个条目中是否包括错误。本文中公开的系统可以应用于各种不同大小和类型的表格,以识别输入表格内不同类型的常见错误。
背景技术
近年来,在使用计算设备(例如,移动设备、个人计算机、服务器设备)来创建、存储、编辑和共享数据方面急剧增加。实际上,用于创建表格和其他结构化数据的工具和应用程序正变得越来越普遍。这些数据文件通常包含各种常见错误(例如,不正确的数字、拼写错误的名称、功能相关错误)。随着使用表格(和其他结构化数据集)的电子表格应用程序、图表应用程序、商业智能(BI)产品和其他应用程序变得越来越流行,用于验证其中所包括的数据准确性的现有工具和技术已经过时且无效。
例如,用于检测表格内错误的传统技术通常不准确或不灵活。现有的错误检测方法通常配备为处理单个数据类型或评估表格内值的有限分布。结果是,传统的错误检测方法通常是不灵活的或仅针对符合非常窄标准的选定数目的表格是准确的。
此外,因为传统的错误检测技术通常涉及定制的算法或配备为分析一组特定的数据的信息技术(IT)专家,所以使用传统技术评估数字表格通常对非专家用户而言是昂贵的或无益的。实际上,由于传统方法在正常运行之前通常需要来自专家用户的大量配置,因此在现有的应用程序中实施这些错误检测方法通常非常昂贵,并且终端用户通常无法有效实施所需的配置。结果是,公司和其他实体通常会限制对高价值数据集的数字表格评估,而简单地忽略可能在其他“不太重要”的数据集中发现的错误。
在识别数字电子表格、表格和各种数据文件中的错误方面存在这些和其他问题。
附图说明
图1图示了根据一个或多个实施方式的包括自动表格条目错误检测系统的示例环境。
图2A至图2C图示了用于根据一个或多个实施方式实施表格条目错误检测系统以自动识别各种表格内的错误的示例过程。
图3图示了根据一个或多个实施方式的用于对训练数据进行子集化并且基于子集化的训练数据自动识别示例表格内的错误的另一示例过程。
图4图示了根据一个或多个实施方式的包括电子表格的显示的示例图形用户界面,所述电子表格示出使用表格条目错误检测系统标记的预测错误。
图5图示了根据一个或多个实施方式的自动识别数据集内的错误的示例方法。
图6图示了根据一个或多个实施方式的训练用于自动识别给定的数据集内的错误的数据集扰乱模型的示例方法。
图7图示了可以包括在计算机系统内的特定组件。
具体实施方式
本公开涉及一种自动表格条目错误检测系统(或简称“错误检测系统”),所述系统被训练为自动识别包含在表格或以多个行和列组织的其他结构化数据集的条目内的预测错误。具体地,如下文将进一步详细讨论的,错误检测系统利用包括表格中所包含的值在内的多个训练表格(或其他类型的数据集),所述训练表格为确定输入表格(或其他类型的输入数据集)是否包括一个或多个错误提供参考。如下文中将进一步详细讨论的,错误检测系统可以策略性地修改(例如,扰乱)输入表格并且基于从多个训练表格中抽取输入表格和输入表格的扰乱版本的概率来识别错误。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080027004.2/2.html,转载请声明来源钻瓜专利网。