[发明专利]联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法在审
申请号: | 201510627272.9 | 申请日: | 2015-09-28 |
公开(公告)号: | CN105243296A | 公开(公告)日: | 2016-01-13 |
发明(设计)人: | 李小波 | 申请(专利权)人: | 丽水学院 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 张健 |
地址: | 323000 *** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 联合 mrna microrna 表达 芯片 肿瘤 特征 基因 选择 方法 | ||
技术领域
本发明属于生物医学数据分析技术领域,涉及一种联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法。
背景技术
目前快速发展的基因芯片技术具有高通量的优势,它为肿瘤研究提供了一种系统性的研究手段。肿瘤的病因复杂,涉及基因组水平、基因调控水平和表观遗传水平的改变,利用传统的方法难以全面展开研究,基因芯片技术可以用来区别多种常见肿瘤的分类标志,用于帮助发现肿瘤的新分型以及与肿瘤相关的新的疾病生物标记,因此采用基因芯片技术有明显的优势。
mRNA表达谱芯片能一次检测成千上万个基因的表达值,是最早用于肿瘤研究的基因芯片产品。1999年,Golub等人[1]率先采用mRNA表达谱芯片对白血病的两种亚型AML与ALL的分类问题进行了研究。Van’t等人[2]将mRNA基因表达谱用于乳腺癌的诊断中,利用包含70个基因的表达谱,区分预后好和预后差的亚型,效果好于临床参数。
继mRNA表达谱芯片之后,microRNA表达谱芯片成为肿瘤新的研究热点。microRNA是在真核生物中发现的一类内源性的具有调控功能的非编码RNA,其大小长约20~25个核苷酸,microRNA通过阻断翻译或诱导靶mRNA降解,在转录后水平调节基因表达,从而精细地调节多种生物学过程,包括生长发育、信号转导、免疫调节、细胞死亡、细胞凋亡、细胞周期、细胞增殖及肿瘤发生等。多数microRNA还具有高度保守性、时序性和组织特异性。人类肿瘤microRNA表达模式与肿瘤诊断、分期、进展、预后及对治疗的反应密切相关[3]。
在基因芯片技术中,一个众所周知的问题是其基因的数目远远大于样品数量。基因芯片数据具有数据量大,样本数小(一般小于100),基因数量多(一般多于10000)的特点,给后期的数据分析和处理带来很大的挑战。特征基因选择是基于基因芯片数据分类中的关键技术[4-9]。基因选择的目的是消除噪声基因,将基因数量减至最小,减少后续的分类任务中的计算负担,并提高学习模型的预测性能[7]。此外,一个较小的最优基因子集可能包含着肿瘤生物标志物,且它们与某些肿瘤的表型间的生物学关系可以更方便地在后续的分子生物学实验中进行验证,从而更好地理解肿瘤发生发展的分子机制[4,8]。
常见的特征选择算法有三种[10],即过滤(Filter)法、缠绕(Wrapper)法和嵌入(embedded)法。过滤法的评估函数与分类器无关,过滤法的评价函数又可以分为距离测度[11]、信息测度[12]、相关性测度[13]等。尽管使用过滤器的基因选择方法简单快速,但它也有几个不足之处:首先,过滤法中的基因选择的标准不一定与分类器直接相关;其次,过滤法并没有考虑到基因之间的相关性,从而降低了所选定的基因在分类器中的有效性;最后,过滤法对于最终确定选择多少基因并无有力的理论支持,所选择的基因数量往往是随意的。
缠绕法[14,15]采用分类器的分类错误率或正确率作为评价函数,缠绕法模式的基因选择方法在某种程度上可以克服过滤法的上述问题。在缠绕法模式的基因选择方法中,基因逐个顺序选择,并以优化分类器准确度的方式进行。也就是说,首先使用单个基因训练分类器,并逐个加入新的基因到训练分类器;该过程持续进行,直到分类器具有足够高的准确度。与过滤器模式相反,缠绕法模式的基因选择方法采取为特定分类器“量身订做”的方式。此外,该方法确保新加入的基因与已经选择的基因是互补的,而不是相关的。该方法还提供了一个停止条件,当选择的基因数量达到所需的准确度时,计算终止。然而,该方法的一个主要缺点是,其对计算的要求是比较高,特别是当原始的基因集所含基因数目比较大的情况下。
嵌入法[5]考虑到分类器的内部特征(比如支持向量机分类器里的支持向量),能与分类器较好地耦合,从而具有较高的精确度,但同对参与特征选择的分类器依赖性大,选择结果适应性差,需要检验选择基因对其他分类器的有效性。
尽管研究人员大量采用包括mRNA和microRNA表达谱芯片等多种基因芯片工具,试图揭示肿瘤发生发展的分子机制,但为数众多的研究往往只是考虑一个平台的数据。比如说,单独采用mRNA表达谱芯片进行特征基因的选择,并对肿瘤进行分子分类。然而研究结果显示,肿瘤相关基因不但相互之间存在调控,构成网络,而且也受到包括microRNA等非编码基因的调控。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于丽水学院,未经丽水学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510627272.9/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用