[发明专利]一种识别显著差异表达基因集合的方法无效
申请号: | 200810019862.3 | 申请日: | 2008-03-19 |
公开(公告)号: | CN101250584A | 公开(公告)日: | 2008-08-27 |
发明(设计)人: | 王进;顾祖光;杨嵘;张辰宇 | 申请(专利权)人: | 南京大学 |
主分类号: | C12Q1/68 | 分类号: | C12Q1/68;G06F19/00 |
代理公司: | 南京苏高专利商标事务所 | 代理人: | 柏尚春 |
地址: | 210093江苏省南京市汉口路*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 显著 差异 表达 基因 集合 方法 | ||
技术领域
本发明涉及高通量生物芯片基因表达检测方法,特别涉及基因表达谱芯片 检测中一种识别显著差异表达基因集合的方法。
背景技术
高通量生物芯片检测是对生物体各过程、各状态进行各个层次的快速、并 行、大信息量检测的先进技术。可以广泛应用于疾病预警、寻找新的疾病基因、 以及分子生理和分子病理研究等方面。其关键技术之一是显著差异表达基因集 合的识别。目前识别差异表达基因集合的方法是对基因表达值进行t检验后按t 值排序,并与随机重排样本的统计结果进行比较,从而识别显著改变的基因集 合。该方法的问题是对大基因集合识别效果不佳,且识别效果受实验重复性和 检测次数的影响很大,若检测次数少则识别效果差。所以现有识别方法难以适 应检测次数不多的现实状况,大大降低了基因表达值在实际应用中的价值。
发明内容
发明目的:本发明的主要目的是针对现有技术识别显著表达基因集合的准 确度低、对检测次数要求过高的问题,提供一种基于表达值加权分布的识别显 著差异表达基因集合的方法。
技术方案:本发明公开了一种识别显著差异表达基因集合的方法,它包括 以下步骤:
(1)设置和输入芯片数据;
(2)将基因表达谱芯片所含基因归属至各个基因集合;
(3)判断每一个基因集合中基因的个数是否大于设置中定义的个数,如果 判断结果为否,则抛弃此基因集合;否则,执行下一步;
(4)计算每一个基因集合的表达变化指数,即E’值;
(5)将整张芯片上所有基因作为背景基因,按照步骤4的方法计算背景基 因集合的表达变化指数;对每一个基因集合去除背景,产生真实的基因集合表 达变化指数E值;
(6)检验各基因集合E值的显著性;
(7)根据设定的E值和p值的阈值,判断是否符合阈值要求,如果判断结 果为否,则抛弃;如果判断结果为是,则输出识别结果;
其中,步骤(7)中所述p值为置信度。
本发明中,步骤(1)中,设置和输入数据包括将荧光信号图像扫描获得的 数据进行预处理(数据转换、缺失数据拟合、归一化等常规处理)后,根据检 测目的所计算的基因表达水平比值,以及判断阈值,包括基因集合的表达变化 指数E值和p值。
本发明中,步骤(3)中,设置基因集合中所含基因数,比如,大于10,一 般根据本领域中实际应用中常见的情况而定的。
本发明中,步骤(4)中计算基因集合的表达变化指数的方法具体包括以下 步骤:(11)基因表达值的离散化;(12)计算表达分布的一阶权重得分;(13) 计算基因集合的表达变化指数。其中,优选地,步骤(12)包括以下步骤:计 算上调区和下调区的差异表达离散分布和权重分布得分;对于有重复实验的单 样本芯片数据,计算差异表达权重分布后,将所有重复实验中的加权表达值叠 加;对于有重复试验的多样本芯片数据,将样本分级并赋予标签值,组合各种 标签值的加权表达值。其中所述的赋予标签值,根据所识别基因集合的要求, 样本之间正相关取+1,样本之间负相关取-1。步骤(13)中用上调区和下调 区得分的比值取对数(E’值)来表示在此集合中的基因表达变化指数。
本发明中,步骤(6)检验各基因集合E值的显著性,从背景基因中随机挑 选与选定基因集合数目相同的基因,按步骤(4)和步骤(5)的做法计算真实 的基因集合表达变化指数E值,重复抽样(比如1000次),获得各集合的E值 的显著性。
本发明中,所述的权重分布计算使用一阶权重公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810019862.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高炉的残铁的拆除方法
- 下一篇:移动通信设备及其控制方法