[发明专利]一种卷积神经网络预测蛋白质溶解性的方法有效
申请号: | 201910824184.6 | 申请日: | 2019-09-02 |
公开(公告)号: | CN110534160B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 王鲜芳;杜志勇;郜鹏;刘依锋;李鸿飞;陆凡 | 申请(专利权)人: | 河南师范大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G06N3/04;G06N3/08 |
代理公司: | 北京专赢专利代理有限公司 11797 | 代理人: | 刘梅 |
地址: | 453004 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 卷积 神经网络 预测 蛋白质 溶解性 方法 | ||
本发明公开了一种卷积神经网络预测蛋白质溶解性的方法,涉及生物信息及深度学习领域;该方法包括以下步骤:对数据进行2‑mer频率运算,获得一个大小为20*20的矩阵,对矩阵进行卷积运算对矩阵内隐藏特征表达,将获得的特征输入深度神经网络进行训练计算或预测计算。本发明将深度学习中的卷积神经网络运用于蛋白质溶解性预测中,可以通过蛋白质一级结构中获得蛋白质溶解性,该方法可以有效的避免传统机器学习中对大数据集训练时出现过拟合现象,使用二级分类器进一步的增加预测精度,该方法不仅提高了蛋白质溶解性预测的精度,同时减少特征提取的过程。
技术领域
本发明涉及生物信息及深度学习领域,特别涉及一种预测蛋白质溶解性预测的方法。
背景技术
蛋白质是生命的物质基础,是有机大分子,是构成细胞的基本有机物,是生命活动的主要承担者。在人体细胞中,除水分外,蛋白质约占细胞内物质的80%,因此构成机体组织、器官的成分是蛋白质最重要的生理功能。在蛋白质具有溶解性、水解、盐析、变性等众多性质,蛋白质溶解性是重要性质之一。
预测蛋白质溶解性的计算方法已经有很多。其中较多使用的是支持向量机(SVM)的方法,这种方式在小数据集上有着很好的表现,但随着数据量的增长,SVM很难适用,使用深度学习中经典算法卷积神经网络(CNN)可以很好的解决这个问题。该方法先使用卷积运算计算蛋白质序列中的隐藏关系,强化蛋白质之间的联系,对特征使用深度神经网络进行训练和预测。
发明内容
本发明的目的是提供一种卷积神经网络预测蛋白质溶解性的方法,克服现有技术存在的上述不足。
为实现上述目的,本发明提供如下技术方案:
一种卷积神经网络预测蛋白质溶解性的方法,其包括以下步骤:
S1:对蛋白质数据进行筛选,排除包含有非人体必须的20种氨基酸的蛋白质序列;
S2:使用CD-hit工具降低数据集冗余度;
S3:计算每个蛋白质序列的2-mer频率;
S4:将数据集分割为训练集Dtr、测试集Dte和校准集Dcor;
S5:对每个子训练集进行卷积神经网络子模型训练,得到n个子模型;
S6:每个子模型对校准集Dcor进行预测运算,获得二级模型训练集Dsoc;
S7:使用训练集Dsoc对二级分类器模型进行训练;
S8:保存各个卷积神经网络子模型和二级模型;
S9:使预测数据通过步骤S1和S2两步处理,获得2-mer频率特征;
S10:使用得到的2-mer频率特征作为各个卷积神经网络子模型的输入,获得各个子模型的预测数据;
S11:对各个子模型的预测数据建立二级分类器输入数据,进行二级分类器模型的预测;
S12:返回二级分类器模型预测结果,算法结束。
在上述技术方案的基础上,本发明还提供以下可选技术方案:
在一种可选方案中:所述步骤S3具体分割方式为:数据集以2:1的比例划分测试集Dtra和训练集Dte;在对训练集Dte划分子训练集和校准集,设置子训练集个数N,同时对训练集进行随机化处理,将数据集平均划分为N+1份;其中N份为子训练集、一份为校准集Dcor。
在一种可选方案中:所述步骤S3的具体操作方法为:首先建立20*20矩阵A,其次计算蛋白质序列的2-mer,最后矩阵A与蛋白质序列长度相除得到2-mer频率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南师范大学,未经河南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910824184.6/2.html,转载请声明来源钻瓜专利网。