[发明专利]高可信度使用数据集的方法和系统有效
申请号: | 200680036951.8 | 申请日: | 2006-08-03 |
公开(公告)号: | CN101278291A | 公开(公告)日: | 2008-10-01 |
发明(设计)人: | 苏瑞什·格帕兰 | 申请(专利权)人: | 苏瑞什·格帕兰 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G01L17/00;G06K9/00 |
代理公司: | 北京连和连知识产权代理有限公司 | 代理人: | 张春媛 |
地址: | 美国马*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 可信度 使用 数据 方法 系统 | ||
背景技术
本发明涉及大规模数据集的高可信度使用的方法和系统。
近来,对包括人类的大量基因组的测序、阵列技术和其他高通量技术的发展,导致这些研究生物体范围数据(细胞、组织、生物体等)的发展的使用逐渐增加。随着上述发展和增加,大规模、高通量数据的输出增加了以高可信度(也就是减小错误的发现)使用数据的方法和系统的需求,以达到为概念、假设、技术和产品的进一步发展最优地分配资源。上述的许多技术在最近十年已有所发展,并且质量在不断地提高,采用的工具也是这样,以便使用数据集并进一步完善这些技术。这里提出一些概念和工具,满足后面的目的中的一些需要。
用于生物体/细胞状态的大规模测量的许多系统包含对各参数(例如基因/转录/蛋白质等)的多次独立测量。这种广泛应用的技术类型的两种通常形式是(i)基因芯片(GeneChip,Affymetrix,CA),其中采用多个独立探针测量基因组的每个转录,每个探针都具有对应的错配探针以评估交叉杂交-前者称为完全配对(PM)探针而后者为错配(MM)探针-(在专利和文献中已充分说明,例如第6551784号和第6303301号美国专利)(ii)采用一些变化质谱(例如Washburn等人于2001年所著,以及用于直接和对比应用中的多种变化)对作为肽段片的蛋白质混合物的典型测量。上述对每个参数的多次独立测量类型的多种应用是目前正在应用并且是具有前景的。由于对现有知识(文献和专利中)和展开的应用已有充分记载,这种技术的使用以及数据的产生在此不作说明。
利用上述高通量数据生成系统的大多数生物实验(由于生物和其他资源的限制)是用少量的重复完成的。如果可能的话,利用统计或数学原理分析(例如检测探究不同条件的数据集间的差异)最终数据,以增加使用的下游步骤的可信度。但是,少量重复会显著地降低分析中的统计功效。原则上,采用对每个参数单独测量应当减轻这个问题的很大一部分(至少在相对于过程—例如制造、处理、杂交等的所有步骤的技术方面增加的功效方面)。采用多次独立测量中,需要理解系统特定特性和用于上述分析中彼此相关的不同参数的作用。反之,理解上述数据集的特性将有助于设计更好的测量技术。
无论是否将类似于上述实例的设计原理应用到数据集(在各个条件下对每个参数的多次测量),不同条件下的数据集和可比较的重复中都是可以得到的。数据分析中的这一步骤通常被称为规范化(在本申请文件中用于表示预处理数据之后,用于技术设计和数据采集特定效果,例如背景纠正的步骤)。好的规范化是对数据的所有进一步分析和解释的必要条件。
上述主要的背景技术说明了一种需要,也就是经常被提出的技术和新算法,但没有被接受的统一地、一致的方法,甚至很少的可以被接受且可预见地用于处理每个参数的多次独立测量(而不需要基于发明内容的统一模式的中间过程)的方法突出了对改进的需求,该改进将会满足对高效且高产地使用许多生命科学和其他领域中生成的大量数据时形成的需求,并设为一种数据集的过程作为本发明一部分。
发明内容
在一实施例中,本发明教导的方法包括选择用于确定数据集中的真阳性和假阳性的实质上最优化的组合度量的标准,应用最优化技术,从最优化技术的结果中获得用于至少一个最优化参数的值,上述用于至少一个最优化参数的值得到真阳性和假阳性的实质上最优化的组合。真阳性的数目和假阳性的数目是一个或多个最优化参数的函数。
根据真假阳性,系统行为被典型地看作关键参数的合适的响应面。在另一实施例中,本发明教导的用于概括参数值的方法包括将数据集测量结果分组成多对测量结果,为每对测量结果确定该对测量结果的预定测量是否满足阈值标准,如果预定测量不满足阈值标准,则从多对测量结果对中分出一对测量结果作为不变的;如果预定测量满足阈值标准,则将每一对测量结果中的其中一个测量结果与另一个测量结果进行比较,比较后根据比较的结果对每一对测量结果进行分类,从已分类的多对测量结果中选择测量结果的通用集,用于数据集,以及为使用通用集的参数提供综合测量。本发明公开了参数估计方法、数据规范化方法和分析质量测试方法的各种实施例。此外,本发明还公开了系统和计算机程序产品的实施例。
为了更好的理解本发明,以及其他的和进一步的需要,以附图和具体实施方式为参考,其保护范围在权利要求中指出。
附图说明
图1表示本发明教导的方法的一个实施例的流程图;
图2a、2b表示本发明教导的方法的另一个实施例的流程图;
图3a、3b表示图2a、2b中表示的本发明教导的方法的实施例的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏瑞什·格帕兰,未经苏瑞什·格帕兰许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680036951.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多媒体电子文件下载发布机
- 下一篇:有机发光显示器的像素电路及其驱动方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置