[发明专利]一种基于独立分量集成学习的基因微阵列数据预测方法无效
申请号: | 200710132391.2 | 申请日: | 2007-09-15 |
公开(公告)号: | CN101145171A | 公开(公告)日: | 2008-03-19 |
发明(设计)人: | 黄德双;刘昆宏 | 申请(专利权)人: | 中国科学院合肥物质科学研究院 |
主分类号: | G06F19/00 | 分类号: | G06F19/00;G06F17/30 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 | 代理人: | 赵晓薇 |
地址: | 230031安徽省合*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 独立 分量 集成 学习 基因 阵列 数据 预测 方法 | ||
所属领域 本发明涉及生物信息学技术领域,特别涉及一种基于独立分量集成学习的基因微阵列数据预测方法。
背景技术 DNA微阵列技术是一种物理学、微电子学与分子生物学综合交叉形成的高新技术,最早由Fodor等人于1993年提出,并一直被不断地发展和完善。当前,DNA微阵列技术不仅是基因组信息学研究的主要支撑技术,而且为在基因组水平上进行癌症研究提供了最基本和必要的信息及依据,在生物学和医学研究中正受到越来越多的应用。在人类基因组计划读出全部基因组序列后,DNA微阵列数据分析也使得从大规模基因水平上揭示疾病的本质并进行彻底的治疗成为可能,癌症研究及其临床预防与治疗发生了革命性的变革。作为生物信息学的一个重要分支,DNA微阵列数据分析已经成为当今生命科学乃至整个自然科学的重大前沿领域之一。
DNA微阵列技术巨大的科学价值不仅在于能够帮助人们探索生物体内基因调控及其相互作用机理,更重要的是它联系了人类基因组序列与临床医学。癌症DNA微阵列数据分析(癌症微阵列数据分析)使得人们能够进行正常和疾病两种状态下基因表达状况的比较研究,并在生物体最根本的基因分子水平进行疾病性状的定义,从而帮助人们更好地理解肿瘤生成生长机理,促进致癌基因识别、癌症诊断与分类和癌症防治等相关课题的研究。2002年,德国科学家研制出新型癌症诊断基因芯片;2004年7月14日,台湾高雄医学大学发布“癌症诊断晶片”技术。基于微阵列数据分析的癌症诊断与分类方法以其快速经济,能够避免传统癌症诊断侵犯性检查和新颖可靠三大优点而被人们寄与厚望。
DNA微阵列技术为生物学和医学研究带来前所未有的机遇的同时,其所产生的海量和复杂的微阵列数据却对现有的数据处理和分析方法提出了巨大的挑战。首先,微阵列数据具有很高的维度(基因),通常有5,000-15,000维,而且这些基因维之间又有非常复杂的关系。第二,实验的复杂和费用的昂贵导致微阵列数据具有较少的样本,并与巨大的基因数目构成不平衡矛盾。这种矛盾造成大多数经典模式识别和机器学习方法不能被直接应用,比如,Fisher线性分析所要求的总类内样本协方差矩阵将成为奇异阵。第三,微阵列数据天生具有高噪声和高变异等数据分析难点。第四,微阵列数据中大量有用变量被隐藏。这可能需要使用概率统计的方法以挖掘和推导这些潜在的生物信息。另外,当考虑时间问题(比如死亡时间,癌症复发时间)时,又会产生不期望的审查中止(right-censoring)以致数据分析变得更加困难。
其实,基于癌症微阵列数据的癌症诊断与分类最大的难点在于高维(p)与小样本(n)之间的不平衡问题。这种不平衡问题导致了许多模式识别方法不能直接在癌症微阵列数据上应用。主分量分析等常用方法只对二阶信息敏感,因此有必要对数据分析方法进行扩展,从而充分挖掘数据中的高阶信息,最终提高癌症微阵列数据的分类效率。
独立分量分析(Independent Component Analysis,简写为ICA)可以看作是主分量分析的一种扩展,有以下几个优点:一是它可以提供一个更符合实际的统计模型,能更好的用来确定数据在高维空间的具体位置;二是ICA能得到唯一的混合矩阵A;三是ICA提供了一个非正交基空间,当信号存在噪声时,可以更好的对信号进行重建;四是ICA对高阶信息比较敏感,而主分量分析只对二阶统计信息敏感。此外,ICA可以利用所有的基因表达谱数据来设计样本分类器,而不是只利用其中的一小部分。目前基于ICA的微阵列数据分析主要集中于分析ICA模型中的混合矩阵A,例如通过分析A中各列的取值分布以来揭示一些数据中隐含的生物特征。另一个要研究的内容是在特征样本中表现比较特别的基因,用这些关键基因来对肿瘤样本进行分析,可能得到一些关键的信息。
关于探讨基于ICA的微阵列数据分类模型的文献是:郑春厚等提出的先使用T-test方法选择基因,而后进行ICA变换,进而使用支持向量机进行识别[C.H.Zheng,Y. Chen,X.X.Li,Y.X.Li,and Y.P. Zhu,Tumor classificationbased on independent component analysis,International Journal of PatternRecognition and Artifical Intelligence 20(2)(2006)297-310]。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院合肥物质科学研究院,未经中国科学院合肥物质科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710132391.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种传输信令二层对等适配层故障链路快速拆除的方法
- 下一篇:发光装置
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用