[发明专利]一种基于自适应权重的微阵列缺失值估计方法在审
申请号: | 201611110461.X | 申请日: | 2016-12-06 |
公开(公告)号: | CN106777938A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 王爱国;吴玺;陈烨;丁会通;安宁 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 安徽省合肥新安专利代理有限责任公司34101 | 代理人: | 陆丽莉,何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自适应 权重 阵列 缺失 估计 方法 | ||
技术领域
本发明涉及基因表达信息挖掘领域,具体地说是一种基于自适应权重的微阵列缺失值估计方法。
背景技术
微阵列技术可以在不同实验条件下同时检测成千上万个基因表达水平值,研究者根据微阵列提供的数据并结合生物学知识可以获取一些有价值的潜在生物信息。研究微阵列数据大量采用了机器学习算法,其中主要包括分类分析和聚类分析等。然而在微阵列技术应用过程中的各个实验步骤都可能存在人为或者非人为的因素:例如微阵列芯片的使用步骤不规范,微阵列芯片的表面有划痕或者灰尘,或者在实验过程中存在某些系统性错误,这些问题都可能造成微阵列芯片的基因表达数据存在不同程度的缺失值,从而导致很多机器学习算法无法实施,因此微阵列数据中缺失值的处理是十分必要的。
处理缺失值的一种简单方法是重复试验,但是由于微阵列芯片价格昂贵,并且重复试验后微阵列数据可能仍然存在缺失值,所以这种方法一般不推荐使用。另外一些简单的算法,例如直接将所有包含缺失值的整个基因表达数据剔除,或者利用基因观测值的平均值或零值填充该基因的缺失值,但是这些算法的缺点显而易见,因为直接删除整个不完整基因可能会造成大量有价值的信息丢失,如果利用基因观测值的平均值或者零值填充该基因的缺失值,则没有充分利用数据结构所包含的信息。为了解决以上这些问题一些更复杂的缺失值填补算法相继提出,其中基于最近邻概念的缺失值填补算法的研究较为广泛。KNNimpute是较早提出的基于最近邻概念的缺失值填补算法,并且实验结果表明KNNimpute优于行平均值填补算法以及基于奇异值分解的填补算法SVDimpute。在KNNimpute的基础上SKNNimpute提出,该算法有选择性的将包含最少量丢失值的基因作为目标基因并填充缺失值,并且该填充后的基因被应用到其它目标基因缺失值的填补过程中。LSimpute算法在基于最近邻概念的基础上结合了一元线性回归模型,相对于KNNimpute算法的精度有所提升,在LSimpute的基础上结合多元线性回归模型的填补算法LLSimpute提出,在LLSimpute的基础上一种迭代的局部最小二乘填补算法ILLSimpute提出,同样基于LLSimpute一种连续的局部最小二乘填补算法SLLSimpute提出。另外一些不是基于最近邻概念的填补算法但是应用同样广泛的有基于贝叶斯定理的缺失值填补算法贝叶斯主成分分析(BPCAimpute),以及基于支持向量机的缺失值填补算法支持向量回归(SVRimpute)。
但是基于最近邻概念的算法都存在一些弊端,这些弊端是由于最近邻算法本身的特性所导致的。第一个弊端是最近邻算法中的参数对于算法效果有直接的影响,并且目前没有一种可以推理的方法来判定最优的参数。第二个弊端是以上这些算法都没有考虑到缺失值的预测值可能产生严重的偏置,原因主要是因为数据集中各样本之间关联性是不同的。基于最近邻概念的填补算法也称为热卡填补算法,热卡填补算法的一个重要特点是缺失值是利用同一数据集中的其它观测数据并采用某种方式填充的,基于最近邻概念的缺失值填充算法都是利用与缺失值所在属性中的其它观测数据填充的,因此这些算法的缺失值填充模型是相同的,但是不同的算法的填充模型参数是各不相同的,也就是说多元线性回归模型容易导致过拟合问题。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于自适应权重的微阵列缺失值估计方法,以期能有效挖掘微阵列数据中的数据结构关系,在避免人工干预的前提下自动预测微阵列数据中的缺失值,从而提高估计的准确性。
本发明为解决技术问题采用如下技术方案:
本发明一种基于自适应权重的微阵列缺失值估计方法,是应用于由n个基因组成的微阵列数据集中,所述微阵列数据集记为G={g1,g2,…,gi,…gn};gi表示第i个基因;1≤i≤n;并有:表示第i个基因在第j个实验条件下的表达数据,1≤j≤m;由n个基因在第j个实验条件下的表达数据组成第j个样本,记为sj;其特点是,所述微阵列缺失值填补估计方法是按照如下步骤进行:
步骤1、定义循环次数为c,并初始化c=1
步骤2、选取第c次循环下的微阵列数据集G(c)中所有具有缺失值的基因,并构成第c次循环下的不完整基因集F(c),并将剩下的没有缺失值的基因构成第c次循环下的完整基因集H(c);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611110461.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能医疗综合检测系统
- 下一篇:基于加权乘积指数模型的诊断试验评价方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用