[发明专利]利用训练表的集合来准确预测各种表内的错误在审
申请号: | 202080027004.2 | 申请日: | 2020-03-09 |
公开(公告)号: | CN113728321A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 何业烨;王沛 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F40/177 | 分类号: | G06F40/177 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 马明月 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 训练 集合 准确 预测 各种 错误 | ||
1.一种方法,包括:
接收包括多个条目的输入表格,其中所述多个条目中的每个条目包括相关值;
从所述多个条目中移除一个或多个条目以生成修改的输入表格;
确定所述输入表格是从所述多个训练表格中抽取的第一概率;
确定所述修改的输入表格是从所述多个训练表格中抽取的第二概率;
基于所述第一概率与所述第二概率的比较来确定从所述输入表格中移除的所述一个或多个条目包含错误。
2.根据权利要求1所述的方法,还包括:通过基于所述输入表格和训练表格的子集的一个或多个共有特征,从训练表格的集合中识别所述训练表格的所述子集来识别所述多个训练表格,其中所述一个或多个共有特征包括以下特征中的一项或多项:
所述多个条目的数据类型;
所述多个条目中的条目的数目;
所述多个条目中的条目的行数;或者
与来自所述多个条目的值相关联的值普遍性。
3.根据权利要求1所述的方法,还包括:
识别用于生成所述修改的输入表格的最大扰乱值,所述最大扰乱值指示在生成所述修改的输入表格时从所述多个条目中移除的条目的最大数目或最大百分比;
基于所述最大扰乱值选择性地识别要从所述多个条目中移除的所述一个或多个条目的数目。
4.根据权利要求1所述的方法,还包括:通过将最小化模型应用于所述输入表格来识别所述一个或多个条目,其中所述最小化模型基于所述第一概率与所述第二概率之间的最小预期比来识别所述一个或多个条目。
5.根据权利要求1所述的方法,还包括:
标记所述输入表格的所述一个或多个条目;
结合所述输入表格的呈现,经由客户端设备的图形用户界面提供标记的指示。
6.一种方法,包括:
访问训练表格的集合,其中所述训练表格的集合包括以条目值的行和列组织的多个训练表格;
基于所述训练表格的集合训练表格扰乱模型,所述表格扰乱模型当被应用于给定的表格时,通过以下方式选择性地识别所述给定的表格的条目内的一个或多个错误:
通过从所述给定的表格中移除一个或多个条目来生成修改的表格;
确定所述给定的表格是从所述训练表格的集合中抽取的第一概率;
确定所述修改的表格是从所述训练表格的集合中抽取的第二概率;
基于所述第一概率与所述第二概率的比较来确定来自所述给定的表格中的所述一个或多个条目包含错误。
7.根据权利要求6所述的方法,还包括:将所述表格扰乱模型应用于包括多个表格条目的输入表格,以识别所述多个表格条目内的一个或多个错误。
8.根据权利要求7所述的方法,还包括:
基于将所述表格扰乱模型应用于所述输入表格的相应列,识别所述多个表格条目内的一个或多个预测错误;
标记所述多个表格条目中的与所识别的所述一个或多个预测错误相关联的一个或多个条目;
结合所述输入表格的呈现,经由客户端设备的图形用户界面提供标记的指示。
9.根据权利要求6所述的方法,其中所述表格扰乱模型还被训练为通过基于所述给定的表格和所述训练表格的子集的一个或多个共有特征,从所述训练表格的集合中识别所述训练表格的子集来选择性地识别所述给定的表格的条目内的所述一个或多个错误。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080027004.2/1.html,转载请声明来源钻瓜专利网。