[发明专利]基于公共子序列的基因芯片表达数据的OPSM挖掘方法有效
申请号: | 201410323563.4 | 申请日: | 2014-07-08 |
公开(公告)号: | CN104156635B | 公开(公告)日: | 2017-07-07 |
发明(设计)人: | 廖政玲;赵洪雅;赵晓荣;周旋;李美航;朱晓晴;罗洁;罗桂银;吴笛;薛云;蔡倩华;胡晓晖;李铁臣 | 申请(专利权)人: | 华南师范大学;深圳职业技术学院 |
主分类号: | G06F19/20 | 分类号: | G06F19/20 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 江裕强,何淑珍 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 公共 序列 基因芯片 表达 数据 opsm 挖掘 方法 | ||
技术领域
本发明属于计算机算法,数据挖掘技术领域,具体涉及一种针对基因芯片表达数据的基于公共子序列的保序子矩阵(OPSM)双聚类挖掘方法。
背景技术
随着DNA微阵列技术的发展,作为生命科学以及自然科学的核心、前沿领域之一,人类对于基因序列的奥秘还知之甚少,破解其生物信息以及相关的内容还有很长的路要走。成千上万个基因的表达水平可以被同时检测,产生了高通量的基因表达数据,从而为基因表达数据分析提供了数据基础。由于细胞种类繁多,同时基因表达具有时空特异性,基因表达数据更为复杂,数据量更大,增长速度更快,如何将海量的数据中包含的丰富生物信息和知识进行迅速有效的组织、浓缩、提取、分类处理,成为了数据挖掘、人工智能、生物信息等领域研究的热点。
通常,一次基因微阵列实验能够获得细胞在某个实验条件下的全基因组表达数据,称为基因芯片表达数据(microarry data),其中包含了成千上万个基因在细胞中的相对或绝对丰度,基因表达值数据用数据矩阵的形式保存,其中每个基因对应一行,每个条件对应一列。矩阵的每个元素值常用一个实数值表示,代表一个基因在特定的条件下的表达值水平。
聚类方法是以前较为流行的基因表达数据分析方法,认为表达相似的基因具有相似的功能,因此聚类方法被用来挖掘具有相似功能的基因或者样本,进行基因功能预测等等。聚类分析即将待分析的对象实体分配到相应的聚类中,使得同一聚类中的对象实体区别较小,而不同聚类之间的对象实体区别较大。它是以全部条件作为特征,或以全部基因作为特征进行的聚类。现有很多的算法被广泛用于基因芯片表达数据的聚类分析中,如K均值聚类、层次聚类,并已被证明可以解决一些问题。但是大部分基因只在某部分条件下是具有很强的相关性,而不是在所有的条件下都相关。因此传统聚类方法存在一些不足之处,难以找出在一部分条件下下参与调控的基因聚类和与一部分基因相关联的条件聚类。
为了克服传统聚类方法的局限性,需要应用新的方法以检测基因表达数据中的局部信息,双聚类方法应运而生。双聚类首先是由Hartigan(Hartigan J A,“Direct clustering of a data matrix,Journal of the American Statistical Association”,vol.67,no.337,pp:123-129,1972.)提出,而由Cheng和Church(Y.Cheng and M.G.Church,"Biclustering of expression data,"Proceeding of Intelligent System for Molecule BIOL,vol.8,pp.93-103,2000.)最早应用于基因表达数据分析中的。双聚类方法可以同时在基因表达数据的基因和条件两个维度上进行聚类,从而获得在某个条件子集下具有相似表达模式的基因子集,发掘基因表达数据中的局部信息在一定的条件下表现出相容的表达模式的基因子集,称之为双聚类(Bicluster)。双聚类可以对部分行部分列的基因进行分析,比聚类更加有优势。双聚类方法可以挖掘一些样本子集的基因子集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学;深圳职业技术学院,未经华南师范大学;深圳职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410323563.4/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用