[发明专利]基于LSTM循环神经网络的基因表达预测方法有效
申请号: | 201810810239.3 | 申请日: | 2018-07-23 |
公开(公告)号: | CN109063416B | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | 王会青;李春;董春林 | 申请(专利权)人: | 太原理工大学 |
主分类号: | G16B25/10 | 分类号: | G16B25/10;G16B40/00;G16B40/30 |
代理公司: | 成都环泰知识产权代理事务所(特殊普通合伙) 51242 | 代理人: | 李斌 |
地址: | 030024 *** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 循环神经网络 基因表达 基因表达谱 构建 预测 非线性预测模型 非线性特征 非线性问题 数据预处理 模型训练 模型预测 提取基因 线性回归 学习效率 引入基因 有效解决 预测模型 表达谱 聚类 推断 标准化 研究 | ||
本发明公开了一种基于LSTM循环神经网络的基因表达预测方法,通过将LSTM循环神经网络引入基因表达预测模型的构建过程,降低模型预测误差,通过K‑Means聚类,Z‑Score标准化等方法进行数据预处理,提高模型训练学习效率;并且结合已知的约1000个landmark gene利用LSTM循环神经网络提取基因表达谱数据的非线性特征,构建非线性预测模型,最终预测约21000个target gene的表达;本发明有效解决了LINCS Program使用线性回归作为推断方法,但却忽略基因表达谱内的非线性问题,降低获取基因表达谱成本,提高基因表达研究效率。
技术领域
本发明涉及基因表达研究与分析领域,尤其涉及一种基于LSTM循环神经网络的基因表达预测方法。
背景技术
分子生物学结合计算机领域的机器学习和深度学习,使得基因表达谱被广泛用于基因功能预测、农作物优选优育、复杂疾病分型、疾病相关基因发现和药物筛选等。但是获取基因表达谱的成本昂贵,过程繁杂,导致目前只有少数资金充足的实验室能够进行大规模全基因组表达谱分析。LINCS program目前采用线性回归(LR)作为基因表达预测的方法,但是对于复杂的基因表达谱数据,LR方法忽略了基因表达谱内的非线性因素,这将会降低最终实验结果的精确度。
发明内容
本发明的目的在于避免现有技术的不足之处而提供一种基于LSTM循环神经网络的基因表达预测方法。
本发明的目的可以采用如下的技术措施来实现,设计一种基于LSTM循环神经网络的基因表达预测方法,包括:对基因表达谱数据进行预处理;将预处理后的基因表达谱数据引入LSTM循环神经网络,构建基因表达预测模型,使用均方误差作为模型的损失函数,按照标准的反向传播算法更新权重训练模型;变更LSTM循环神经网络的参数组合进行训练模型,将平均绝对误差作为预测模型性能评价指标,分别测试不同参数组合下的模型误差;使用统计量决定系数(R2)衡量模型拟合效果。
其中,预处理的方式至少包括:使用无监督聚类算法去除原始基因表达谱数据中的重复数据;对去重后的基因表达谱数据进行格式转换,使用python中的numpy格式保存数据;确定基因表达谱数据中的landmark gene和target gene基因注释,将转换格式后的基因表达谱数据进行规范化;其中,规范化的方式是进行Z-Socre标准化处理。
其中,使用无监督聚类算法去除原始基因表达谱数据中的重复数据,是将原始的基因表达谱数据使用K-Means聚类算法将数据进行分类,使用欧氏距离度量每个类中数据之间的相似性,以判断同类数据中是否存在重复,并在存在重复数据时去除重复数据;具体包括步骤:
Step1:初始化K个聚类中心;
Step2:计算每个基因表达谱样本数据到聚类中心的距离,并将该样本数据划分到距离最近的聚类中心所代表的簇中;
Step3:计算每个簇中所有基因表达谱样本数据的坐标平均值,并将坐标平均值作为新的聚类中心;
Step4:重复步骤2和3,直到聚类中心的移动小于预设误差值,或者聚类迭代次数达到预设值为止;
Step5:测量每一个簇中基因表达谱数据之间的欧氏距离,如果同一簇中两个基因表达谱数据的欧氏距离小于设定阈值,则将这一对表达谱定义为重复项,进行删除。
其中,在确定基因表达谱数据中的landmark gene和target gene基因注释,将转换格式后的基因表达谱数据进行规范化的步骤中,包括步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太原理工大学,未经太原理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810810239.3/2.html,转载请声明来源钻瓜专利网。