[发明专利]一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法有效

专利信息
申请号: 202110475896.9 申请日: 2021-04-29
公开(公告)号: CN113130002B 公开(公告)日: 2022-11-08
发明(设计)人: 刘元宁;赵曦;张浩;钟晓丹;王林宇 申请(专利权)人: 吉林大学
主分类号: G16B20/00 分类号: G16B20/00;G06K9/62;G06N20/10
代理公司: 长春市恒誉专利代理事务所(普通合伙) 22212 代理人: 鞠传龙
地址: 130012 吉*** 国省代码: 吉林;22
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 腺癌 生物 标志 筛选 预后 模型 构建 生物学 验证 新方法
【权利要求书】:

1.一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法,其特征在于:其方法包括如下步骤:

步骤一、对原始的基因表达矩阵进行数据的预处理,首先使用匹配文件进行注释,将探针名改为基因名,按照如下方式进行数据预处理:

1)、删除缺失率超过20%的转录组特征基因;

2)、删除方差接近0的转录组特征基因;

3)、对缺失率超过20%的转录组特征基因使用KNN填充的方式进行填充;

4)、使用Z-score方法对上述3)得到的表达矩阵进行归一化;

最终,得到了一个含有数个基因,数个样本的转录组表达数据矩阵;

步骤二、在经过预处理后得到的数据上进行生物标志物筛选,流程如下所示:

1)、使用双边t检验去除癌症/非癌症组p值大于0.05的特征基因,p值越大,说明在不同分组种显著性差异越不明显;

2)、获取差异表达基因,即利用fold-change检验计算出癌症/非癌症组的logFC值和FDR值,保留|logFC|1.5,FDR0.05的基因,并且根据|logFC|的正负来判断该基因在癌症发生过程中是上调还是下调;

3)、利用scikt-learn中的SelectFromModel模块来实现基于模型的特征选择,利用模型自带的特征评估的功能,删除低于某一特征评分的设定值的特征,该过程是一个迭代的过程,通过阈值和迭代次数的设定确定最终的结果;

4)、构建基因表达的相关性网络,并与fold-change和generank算法相结合,调整SVMRFE中的特征权重来确定最终的基因排序列表,改进的SVMRFE算法过程如下所示:

首先依据互信息公式构造一个互信息矩阵,互信息公式(1)如下所示:

p(x,y)是X和Y的联合概率分布函数,指的是两个事件同时发生的概率,而p(x)和p(y)分别是X和Y的边缘概率分布函数,随机向量中分量各自的概率分布;

将互信息矩阵转成拓扑重叠网络的形式,这一步的目的是寻找基因间的广泛联系:

M_TOM:最终形成的矩阵值,n:检测样本的全部个数,min,样本矩阵第i行第n列的值;mnj,样本矩阵第n行第j列的值;mij,样本矩阵第i行第j列的值;

按照公式(3)、(4)计算评分矩阵,将评分矩阵看成相关性网络:

Z(i,j):形成新矩阵Z的表达值,zi2:拓扑网络对应自变量的值;zj2:拓扑网络对应结果因变量的值;

I(X;Y):样本表达式的互信息值,μi:样本平均总体数,σi:样本标准差;

对相关性网络使用GeneRank算法,按照公式(5)计算每个节点的重要性,这里相关性网络上的节点表示矩阵中的基因:

d:自由设定的参数值,成为阻尼系数,取值范围[0-1];degj:第j个基因的输出度,度表示在网络拓扑结构中有多少个与该基因相连的基因;fci:基因表达量与平均值相比变化的绝对值;矩阵对角线的值;

根据公式(5)的结果和支持向量机递归特征清除重新确定转录组中基因特征的重要权重;

采用SVMRFE算法通过模型训练样本,对每个特征进行评分排序,去掉评分最低的特征,然后重复构建模型进行下一次训练,该过程中特征重要性的评估方法如公式(6):

ci=wi2 (6)

wi2:求解支持向量机得到的超平面的值;

支持向量机训练过程求出(6)之后,利用公式(4)重新计算每一个基因的重要性,此时的重要性为公式(5)和公式(6)两个结果的比值,如公式(7)所示:

ranki=wi2/ri[N] (7)

wi2:求解支持向量机得到的超平面的值,ri[N]:GeneRank算法得出的排序结果;经过公式(7)得到的结果为每一个基因重新计算的重要性,以此重要性为评估指标,进行递归特征清除算法;

5)、输出执行改进的SVMRFE算法得到的基因排序,选取前50个特征基因中的最优子集,在利用动态SFFS方法对最优子集进行去冗余,得到的基因组合即可被认定为是最佳基因组合;

去冗余的过程是一种改进的SFFS算法,该算法首先从空集开始,从未被选中的特征中选择一个加入特征集合,使加入后分类准确率更高;然后从已选中的特征中删除特征,在该过程中使用一个数组记录当前特征数为i时的最佳分类准确率arr[i],如果删除过程中arr[i]升高,则继续删除,检验arr[i-1]的值,一直删除到该值不再继续升高为止;

步骤三、使用经过上述多步骤特征选择的肺腺癌预后标志物构建预后模型,以生存期是否超过三年将其分成正、负样本,通过多种机器学习分类模型进行对比,使用五折交叉验证评估,用ACC值,AUC值,F1-score值作为评估指标,选择线性支持向量机作为预后分类模型;

支持向量机是去找到一个超平面,尽可能地将两个不同类别的样本分开,定义这个超平面为wTx+b=0,在二维平面中,就相当于直线w_1*x+w_1*y+b=0,其中,x代表输入向量,也就是样本集合中的向量;w是可调权值向量,每个向量可调权值;T代表向量的转置;b代表偏置,即超平面相对原点的偏移,而在超平面上方的点,定义为y=1,在超平面下方的点,定义为y=-1,在支持向量机训练的过程中,实现任意一个样本与超平面的间隔最大化,这时的间隔称为硬间隔,该过程中的目标函数为:

由于的最大化等价于的最小化,因此根据凸优化理论,最终的目标函数为:满足ai≥0;

在模型的构建中使用的是线性支持向量机,线性支持向量机,指原有的数据样本本可以寻找一个超平面使两个样本完全分离,但是混入了异常点导致无法线性可分或者由于异常点严重影响模型的泛化性能,在这种情况下,引入一个松弛变量ξi,对应一个代价,使间隔函数加上松弛变量大于等于1,这个过程称为软间隔最大化,此时目标函数为:

在目标函数中,C表示惩罚系数,αi、μi均为大于0的拉格朗日系数,C越大,对误分类的惩罚也越大;

步骤四、建模之后对选出的标志物进行生信分析,其中包括基因组功能分析、KM生存分析、通路分析和miRNA靶基因分析,通路分析包括GO分析、KEGG分析和Reactome分析,生存分析是通过对患者的随访,分析一定时间后的患者生存或者死亡的状况,KM生存分析中使用Kaplan-Meier分析法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林大学,未经吉林大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110475896.9/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top