[发明专利]一种显著性分析方法在审
申请号: | 201610231482.0 | 申请日: | 2016-04-10 |
公开(公告)号: | CN105893789A | 公开(公告)日: | 2016-08-24 |
发明(设计)人: | 贺建忠;刘坤;陈宏伟;王永;常卫华;白万胜;郭心怀 | 申请(专利权)人: | 塔里木大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24;G06F19/16;G06F19/12 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 843300 新疆维吾尔*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种显著性分析方法,分别利用fisher精确检验和χ2检验,分别得到p值和p(k)值,通过多重比较检验,确定pathway的FDR。在小样本的情况下,通常使用随机方差模型的t检验或F检验进行差异基因筛选;对于两种类型的差异基因,采用t检验来鉴别差异性。发明为了减少小样本造成的差异筛选误差,利用随机方差模型修正的T检验对两组进行比较,计算基因间的显著性水平和误判率,从而得到差异的基因,该方法具有准确度高的特点,适合推广应用。 | ||
搜索关键词: | 一种 显著 分析 方法 | ||
【主权项】:
一种显著性分析方法,其特征在于,包括以下步骤:步骤1:分别利用fisher精确检验和χ2检验,分别得到p值和p(k)值,通过多重比较检验,确定pathway的FDR;最后得出显著性pathway,完成pathway‑Analysis;ENRICHMENT计算公式为: nf:表示差异基因在pathway中的数目;Nf:表示差异基因的数目;n:表示pathway中含有基因的总数目;N:表示芯片上检测出来基因的总数目;p1:表示差异基因落在pathway中的概率;p2:表示差非异基因不落在pathway中的概率;假设:H0:p1=p2,H1:p1≠p2;步骤2:在小样本的情况下,通常使用随机方差模型的t检验或F检验进行差异基因筛选;对于两种类型的差异基因,采用t检验来鉴别差异性;首先设为各类型中样本的平均值,为其方差,样本量分别为n1,n2,检测的统计量为:其中t服从自由度为n1+n2‑2的t分布;随机方差模型在于估计t检验中的方差选择反伽玛分布作为此方差的方差模型;首先,选择的线性模型为:yij=x′iβj+εij;其中,yij为来自i样本的基因j的标准化表达值,xi为标志不同类型特性的向量,βj为针对特性的系数向量,εij为未知残差,其均值为0,且方差未知;对于每一个基因j,εij~NID(0,σj2)且方差σj2的样本估计值服从反伽玛分布;对βj的假设检验基于给定的基因表达数据;根据线形模型要检验的假设为H0:β∈ω,ω为线性子空间Rk,k表示xi和βj的维数,r≡k‑dim(ω)表示受子空间ω约束的线性向量的维数;在Rk空间上,对β的最大似然估计为以及在ω子空间上,对β的最大似然估计为其中Xω代表在子空间ω上的满秩矩阵;要假设的检验为H0:β∈ω,及H1:β∈Rk,我们要先考虑各偏差平方和与然后用下面给出的统计量去检验假设:在零假设为真时,F服从自由度为r与n‑k的F分布;我们再在随机方差模型的假设检验下,对σ2进行估计,就会在最大似然估计中有一些改变;在统计量F中,分母的残差平方和替换为而其自由度也由n‑k变为n‑k+2a;所以,调整后的统计量为在假设H0为真时,服从自由度为r与n‑k+2a的F分布;在线性模型下,用最大似然估计对方差进行估计,得到:再运用随机方差模型,经过运算之后,得到:通过随机方差模型的建造,得到对t检验的方差估计,对传统t检验中的方差进行修正,得到:其中n=n1+n2,使得统计量的自由度由n‑2变为n‑2+2a。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于塔里木大学,未经塔里木大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610231482.0/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用