[发明专利]一种基于深度学习的植物蛋白质互作网络构建方法在审
申请号: | 201910262202.6 | 申请日: | 2019-04-02 |
公开(公告)号: | CN110136773A | 公开(公告)日: | 2019-08-16 |
发明(设计)人: | 赵佳薇;张利达;雷雨;郑存俭;洪剑伟 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G16B5/00 | 分类号: | G16B5/00 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 杨宏泰 |
地址: | 200030 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类模型 植物蛋白质 网络构建 优化参数 构建 蛋白质 学习 全基因组 特征数据 预测结果 测试集 训练集 预测 建模 蛋白 筛选 优化 网络 | ||
本发明涉及一种基于深度学习的植物蛋白质互作网络构建方法,包括以下步骤:1)获取蛋白质互作对11个特征数据;2)筛选获得训练集及测试集;3)构建深度学习分类模型;4)对深度学习分类模型的参数进行批量优化,获得最佳优化参数组合的分类模型;5)根据最佳优化参数组合分类模型对全基因组所有可能两两互作蛋白对进行互作关系预测;6)根据互作关系预测结果构建蛋白质互作网络。与现有技术相比,本发明具有预测准确、建模效率高等优点。
技术领域
本发明涉及生物技术领域的深度学习技术,尤其是涉及一种基于深度学习的植物蛋白质互作网络构建方法。
背景技术
蛋白质相互作用在细胞的生物过程中必不可少,大部分基因在蛋白质水平通过与其它蛋白质的相互作用来行使其生物学功能。后基因组时代的到来为在全基因组范围预测蛋白质相互作用提供了丰富的数据信息,且随着高通量实验技术、生物信息学的发展,大大提高了复杂生物网络的研究进展。
构建分类模型需要利用统计学、机器学习等方法从大量数据中提取有价值的信息,该过程包括了对数据的预处理、分类和异常检测等方面。随着生物数据的爆炸式增长,许多机器学习方法经过改进后可以适用于生物数据的分析,帮助我们从多个组学数据中提取有效信息。其中,深度学习是机器学习研究中的一个新领域,其动机在于建立、模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释数据,比如图像,声音和文本等。目前深度学习已成功应用于计算机视觉、语音识别、记忆网络、自然语言处理等其他领域。然而针对植物蛋白质互作网络构建的研究,大多使用如决策树、朴素贝叶斯、支持向量机及随机森林等传统机器学习手段进行建模,利用深度学习方法搭建蛋白质互作分类模型的研究少之又少,大大限制了提高预测精度的可能性。
此外,深度学习模型参数量大,所需训练数据多,导致模型复杂,计算量极大,且易造成训练过拟合现象。因此,如何快速选择最优参数组合,在减少训练任务前提下大大提高模型预测精度成为将深度学习广泛应用于复杂生物网络构建的主要研究问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度学习的植物蛋白质互作网络构建方法。
本发明的目的可以通过以下技术方案来实现:
一种基于深度学习的植物蛋白质互作网络构建方法,包括以下步骤:
1)获取蛋白质互作对11个特征数据;
2)筛选获得训练集及测试集;
3)构建深度学习分类模型;
4)对深度学习分类模型的参数进行批量优化,获得最佳优化参数组合的分类模型;
5)根据最佳优化参数组合分类模型对全基因组所有可能两两互作蛋白对进行互作关系预测;
6)根据互作关系预测结果构建蛋白质互作网络。
所述的步骤1)中,特征数据包括4个结构特征信息和7个功能特征信息,所述的结构特征信息包括蛋白质同源模型与复合体模板之间的RMSD值、TMscore值、互作界面保守残基数目以及保守残基比例,所述的功能特征信息包括基因共表达、基因功能相似性、基因系统发生谱、蛋白质相互作用跨物种保守性以及基因融合信息,所述的基因功能相似性包括细胞组分、分子功能和生物过程。
所述的步骤2)具体为:
从多个蛋白质互作数据库中获取蛋白质阳性互作数据,将筛选出的严谨阳性数据集与不互作蛋白的阴性数据集以不同比例进行合并构成训练集,剩余阳性数据集与阴性数据集以不同比例合并构成测试集,其中,严谨阳性数据集的筛选标准为:
蛋白质互作数据由低通量实验支持或至少经过两次不同的独立高通量实验证据支持。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910262202.6/2.html,转载请声明来源钻瓜专利网。