[发明专利]生成测试数据有效
申请号: | 201080035409.7 | 申请日: | 2010-06-09 |
公开(公告)号: | CN102460076A | 公开(公告)日: | 2012-05-16 |
发明(设计)人: | C.R.范曼 | 申请(专利权)人: | 起元技术有限责任公司 |
主分类号: | G01D3/00 | 分类号: | G01D3/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邵亚丽 |
地址: | 美国马*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 测试数据 | ||
相关申请的交叉引用
本申请要求2009年6月10提交的美国申请第61/185797号的优先权,其通过引用合并于此。
技术领域
本说明书涉及生成测试数据。
背景技术
一些组织拥有它们希望保密的数据(例如,可能包括客户信息的生产数据)。当要通过程序处理保密数据时,出于安全的原因,可能需要开发者开发不对实际生产数据进行访问的程序。例如,使得生产数据保密的一种途径是使看到生产数据的人的数量最小化。然而,为了确保他们的应用在有生产数据的情况下正确运行,程序员可能需要真实的测试数据用于开发和测试,所述真实的测试数据展示生产数据的某些特征,但不暴露任何机密信息。
发明内容
在一个方面,总体上,一种用于生成测试数据的方法包括:从数据源读取在多个记录(record)的至少一个字段(field)中出现的值;存储包括对所述值的特征进行描述的统计信息(statistics)的简档(profile)信息;基于所述统计信息生成所述字段的概率分布的模型;使用所生成的模型生成多个测试数据值,使得给定值在测试数据值中出现的频率对应于由所述模型分配给该给定值的概率;以及将包括测试数据值的测试数据的集合存储在数据存储系统中。
多个方面可以包括下列特征中的一个或多个。
所生成的模型包括所述概率分布的估计的至少第一部分和所述概率分布的估计的至少第二部分,所述概率分布的估计的至少第一部分对应于值的连续范围上的概率密度,所述概率分布的估计的至少第二部分对应于离散值的一个或多个离散概率值。
所述统计信息包括指示值的多个连续范围中的每个连续范围内落入多少值的信息。
所述第一部分至少部分地从指示值的连续范围之一内落入多少值的信息导出。
所述统计信息包括指示多个特定值中的每个值在所述记录中出现的频率的信息。
所述第二部分中的离散概率值之一至少部分地从指示特定值之一在所述记录中出现的频率的信息中导出。
该方法还包括使用所生成的模型和指示从数据源读取的出现在字段中的值的特征的附加信息来生成多个测试数据值。
所述附加信息指示出现在字段中的无效值的数量。
所述附加信息指示出现在字段中的相异值(distinct value)的比率(fraction)。
该方法还包括提供开发环境,用于使用数据存储系统中存储的测试数据的集合来开发用于处理来自数据源的记录的至少一个程序。
所述开发环境不能访问来自数据源的记录。
所述方法还包括所述开发环境不能访问所述数据源。
在另一方面,总体上,一种用于生成测试数据的系统包括:数据源,其提供在一个或多个字段中具有值的记录;数据存储系统;以及一个或多个处理器,其耦合到所述数据存储系统,用于提供执行环境以执行以下处理:从数据源读取在多个记录的至少一个字段中出现的值,存储包括对所述值的特征进行描述的统计信息的简档信息,基于所述统计信息生成所述字段的概率分布的模型,使用所生成的模型生成多个测试数据值,使得给定值在测试数据值中出现的频率对应于由所述模型分配给该给定值的概率,以及将包括测试数据值的测试数据的集合存储在数据存储系统中。
在另一方面,总体上,一种用于生成测试数据的系统包括:数据源,其提供在一个或多个字段中具有值的记录;数据存储系统;以及用于处理所述记录以生成测试数据的装置,所述处理包括:从数据源读取在多个记录的至少一个字段中出现的值,存储包括对所述值的特征进行描述的统计信息的简档信息,基于所述统计信息生成所述字段的概率分布的模型,使用所生成的模型生成多个测试数据值,使得给定值在测试数据值中出现的频率对应于由所述模型分配给该给定值的概率,以及将包括测试数据值的测试数据的集合存储在数据存储系统中。
在另一方面,总体上,一种计算机可读介质存储用于生成测试数据的计算机程序。所述计算机程序包括用于使计算机执行以下操作的指令,所述操作包括:从数据源读取在多个记录的至少一个字段中出现的值;存储包括对所述值的特征进行描述的统计信息的简档信息;基于所述统计信息生成所述字段的概率分布的模型;使用所生成的模型生成多个测试数据值,使得给定值在测试数据值中出现的频率对应于所述模型分配给该给定值的概率;以及将包括测试数据值的测试数据的集合存储在数据存储系统中。
多个方面可以包括以下优点中的一个或多个优点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于起元技术有限责任公司,未经起元技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080035409.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:打印处理装置及打印处理装置控制方法
- 下一篇:用于插入发音假体的扩张器