[发明专利]基于LSTM循环神经网络的基因表达预测方法有效
申请号: | 201810810239.3 | 申请日: | 2018-07-23 |
公开(公告)号: | CN109063416B | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | 王会青;李春;董春林 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G16B25/10 | 分类号: | G16B25/10;G16B40/00;G16B40/30 |
代理公司: | 成都环泰知识产权代理事务所(特殊普通合伙) 51242 | 代理人: | 李斌 |
地址: | 030024 *** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 循环神经网络 基因表达 基因表达谱 构建 预测 非线性预测模型 非线性特征 非线性问题 数据预处理 模型训练 模型预测 提取基因 线性回归 学习效率 引入基因 有效解决 预测模型 表达谱 聚类 推断 标准化 研究 | ||
1.一种基于LSTM的基因表达预测方法,其特征在于,包括:
对基因表达谱数据进行预处理;
将预处理后的基因表达谱数据引入LSTM循环神经网络,构建基因表达预测模型,使用均方误差作为模型的损失函数,按照标准的反向传播算法更新权重训练模型;
变更LSTM循环神经网络的参数组合进行训练模型,将平均绝对误差作为预测模型性能评价指标,分别测试不同参数组合下的模型误差;
使用统计量决定系数(R2)衡量模型拟合效果;
其中,预处理的方式至少包括:
使用无监督聚类算法去除原始基因表达谱数据中的重复数据;
对去重后的基因表达谱数据进行格式转换,使用python中的numpy格式保存数据;
确定基因表达谱数据中的landmark gene和target gene基因注释,将转换格式后的基因表达谱数据进行规范化;其中,规范化的方式是进行Z-Socre标准化处理;
其中,使用无监督聚类算法去除原始基因表达谱数据中的重复数据,是将原始的基因表达谱数据使用K-Means聚类算法将数据进行分类,使用欧氏距离度量每个类中数据之间的相似性,以判断同类数据中是否存在重复,并在存在重复数据时去除重复数据;具体包括步骤:
Step1:初始化K个聚类中心;
Step2:计算每个基因表达谱样本数据到聚类中心的距离,并将该样本数据划分到距离最近的聚类中心所代表的簇中;
Step3:计算每个簇中所有基因表达谱样本数据的坐标平均值,并将坐标平均值作为新的聚类中心;
Step4:重复步骤2和3,直到聚类中心的移动小于预设误差值,或者聚类迭代次数达到预设值为止;
Step5:测量每一个簇中基因表达谱数据之间的欧氏距离,如果同一簇中两个基因表达谱数据的欧氏距离小于设定阈值,则将这一对表达谱定义为重复项,删除其中一项;
其中,在确定基因表达谱数据中的landmark gene和target gene基因注释,将转换格式后的基因表达谱数据进行规范化的步骤中,包括步骤:
依据基因编码注释,提取基因表达谱数据中943个landmark基因探针和15744个target基因探针的表达值;
确定基因表达谱数据对应RNA-Seq数据中相同的基因编码注释的多重探针,取多重探针表达的平均值作为基因表达谱数据的表达值,在基因表达谱数据和RNA-Seq数据之间,得到9520个具有一一对应关系的组合target基因;
把基因表达谱数据的943个landmark基因和9520个组合target基因的表达值使用Z-Score标准化;
对于RNA-Seq数据的每一个表达谱,将943个landmark基因和9520个target基因的表达值排在一起,使用Z-Score方法对数据进行标准化;
其中,将预处理后的基因表达谱数据引入LSTM循环神经网络构建基因表达预测模型,使用均方误差作为模型损失函数的步骤中,包括步骤:
设定N个训练样本、L个landmark genes、T个target genes,训练集表示为其中,xi∈RL表示第i个landmark genes的表达值,yi∈RT表示第i个target genes的表达值;
LSTM循环神经网络通过“门”(gate)来控制丢弃或者增加信息,从而实现遗忘或记忆的功能;一个LSTM单元有三个这样的门,分别是遗忘门、输入门和输出门;
遗忘门是将上一时刻的细胞状态中的信息选择性的遗忘,通过sigmoid层实现;在LSTM循环神经网络中进行训练时,以上一时刻的ht-1和这一时刻的xt作为输入的sigmoid函数,为上一时刻的细胞状态Ct-1里的每一项产生一个[0,1]的值,表示保留信息量的大小,其中,1代表完全保留,0表示完全舍弃;与Ct-1相乘;ft的更新如公式(1)所示:
ft=σ(Wf·[ht-1,xt]+bf) (1)
其中xt是当前输入向量,ht-1是t-1时刻的输出向量,bf,Wf分别是遗忘门的偏置、输入权重,ft表示保留上一次的信息量;
输入门将新的信息选择性的记录到细胞状态中;其实现方式包含两部分:1.通过输入门层决定更新的内容it;2.通过tanh层创建一个候选值向量并增加到细胞状态中;it的更新及如公式(2)和(3)所示:
it=σ(Wi·[ht-1,xt]+bi) (2)
接下来更新细胞状态Ct,更新方式如公式(4)所示:
输出门控制输出,实现方式是:1.通过输出层门来决定输出新的细胞状态的内容ot;2.然后将细胞状态通过tanh层,然后与输出门层的输出相乘得到ht;ot和ht更新方式如公式(5)和(6)所示:
ot=σ(Wo·[ht-1,xt]+bo) (5)
ht=ot*tanh(Ct) (6)
使用均方误差作为预测模型的损失函数,如公式(7)所示:
其中N是测试的样本数,表示第i个样本进行预测得到的target基因t的表达值,yi(t)表示第i个样本target基因t的真实表达值;
其中,在将预处理后的基因表达谱数据引入LSTM循环神经网络构建基因表达预测模型,使用均方误差作为模型损失函数的步骤之后,还包括按照标准的反向传播算法更新预测模型权重,使用Adam优化算法和Dropout技术加速模型训练,增强模型鲁棒性,降低预测模型误差的步骤,包括步骤:
按照标准的反向传播算法更新预测模型权重,通过梯度下降法迭代更新预测模型的权重参数,计算所有参数基于损失函数的偏导数,按照公式(8)计算梯度:
在反向传播算法中使用Adam优化算法代替传统的随机梯度下降,基于训练数据迭代的更新预测模型的网络权重,通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率;
预测模型的训练过程中加入Dropout技术;Dropout技术在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃;
其中,在变更LSTM循环神经网络的参数组合进行训练模型,将平均绝对误差作为预测模型性能评价指标,分别测试不同参数组合下的模型误差的步骤中,
平均绝对误差公式定义如公式(9)所示:
其中N是测试的样本数,表示第i个样本进行预测得到的target gene t的表达值,yi(t)表示第i个样本target gene t的真实表达值;
其中,决定系数(R2)是回归分析中经常用的统计信息,经常被当作衡量模型预测能力好坏的标准;相关公式如(10)-(13)所示:
其中,Sum of Squares Due To Error(SSE)
Sum Of Squares Due To Regression(SSR)
Total Sum Of Squares(SST)
在公式(10)-(13)中表示第i个基因表达谱预测值,表示样本平均值,yi表示第i个基因表达谱真实值。
2.根据权利要求1所述的基于LSTM的基因表达预测方法,其特征在于,R2的取值为[0,1],一个模型的R2值为0,完全无法预测目标变量,一个模型的R2值为1,则对目标变量进行预测的效果良好;R2值为0到1之间的数值,则表示该模型中能够用特征来解释的目标变量中所占百分比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810810239.3/1.html,转载请声明来源钻瓜专利网。