[发明专利]一种去除测序数据噪声的方法有效
申请号: | 201710031232.7 | 申请日: | 2017-01-17 |
公开(公告)号: | CN106611107B | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 王演;张宁 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B30/00 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 张大保;李馨 |
地址: | 116026 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 去除 序数 噪声 方法 | ||
1.一种去除测序数据噪声的方法,其特征在于,包括以下步骤:
S1:对原始数据集进行过滤,应用最小过滤原则,去除原始数据矩阵中数值为0或表达量极低的行;
S2:对过滤后的数据进行标准化处理,去除系统偏差,将不同的结果根据全局数值进行调整,使个体之间的数据具有可比性;
S3:计算标准化数据后组变量和批次噪声之间的相关性,进行相关系数显著性检验,求出P值,若P<0.05,则有显著相关性,否则没有显著相关性;
S4:若两者相关,则对标准化数据进行rlog变换;若两者不相关,则先对标准化数据进行Z-Score处理,然后对处理后的数据进行log变换,Z-Score的模型为:
其中:Y为处理前的数据,X为处理后的数据,μ为标准化数据的均值,ν为标准化数据的方差;
S5:确定替代变量。
2.根据权利要求1所述的一种去除测序数据噪声的方法,其特征还在于:所述S5步骤包括以下步骤:
S51:检测批次效应;
S52:计算替代变量。
3.根据权利要求2所述的一种去除测序数据噪声的方法,其特征还在于:所述S51步骤包括以下步骤:
①通过拟合模型xij=μi+biyj+eij来估计和并通过加权最小二乘法计算残差形成m×n的残差矩阵R;
②计算残差矩阵的奇异值分解,即R=UDVT,其中U和V是R的特征向量,D表示R的特征值;
③使dl为第l个特征值,其是D的第l个对角元素,l=1,2,...,n,如果df是模型拟合的自由度,然后通过构造最后的df特征值正好为零,将dl删除;对于特征基因k=1,2,...,n-df设置观察到的统计量为:
④通过置换R的每一行以形成矩阵R*;
⑤拟合模型并计算残差来形成m×n的空矩阵模型R0;
⑥计算R0矩阵的奇异值分解
⑦对于R0中的第k个特征基因的T统计量为:
⑧迭代④-⑦步骤共B次,得到统计b=1,2,...,B和k=1,2,...,n-df;
⑨计算特征基因k的p值:
⑩对于用户选择的显著性水平0≤α≤1,如果pk≤α,则特征基因k为显著性特征;否则,这些特征基因不显著。
4.根据权利要求2所述的一种去除测序数据噪声的方法,其特征还在于:所述S52步骤包括以下步骤:
①通过拟合模型xij=μi+biyj+eij来估计和并通过加权最小二乘法计算残差形成m×n的残差矩阵R;
②计算残差矩阵的奇异值分解R=UDVT;令ek=(ek1,.....ekn)T是特征向量V的第k列,表示残差特征基因,并且代表与主变量导致的信号无关的正交残差信号;
设置为算法所确定的显著特征基因数;
③在xi上回归ek并计算p值来检测残差特征基因和每个基因表达之间的关联,p值测量残差特征基因ek和基因i的表达之间关联的强度,其中i=1,2……m;
④令π0是与ek不相关的表达基因的比例,估计并估计与残差特征基因相关的基因的数量为
⑤形成的简化矩阵
为与残差特征基因k相关的基因数量的估计,计算Xr的特征基因,并用表示,j=1,...,n;
⑥令即j*是使得ek和之间的相关性达到最大值所对应的变量,并设置将替代变量的估计设置为与相应的残差特征基因最相关的简化矩阵的特征基因;其中,cor()表示求相关关系的函数;
⑦在后续差异基因表达研究中,应用模型
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710031232.7/1.html,转载请声明来源钻瓜专利网。