[发明专利]基于深度卷积神经网络的蛋白质亚细胞定位方法和装置有效
申请号: | 201810002518.7 | 申请日: | 2018-01-02 |
公开(公告)号: | CN108197427B | 公开(公告)日: | 2020-09-04 |
发明(设计)人: | 刘弘;丛菡菡;陈月辉;韩延彬 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G16B15/00 | 分类号: | G16B15/00;G16B40/00 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张勇 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 卷积 神经网络 蛋白质 细胞 定位 方法 装置 | ||
本发明公开了一种基于深度卷积神经网络的蛋白质亚细胞定位方法和装置,该方法包括:接收已知蛋白质亚细胞位置的序列信息,建立并存储基准蛋白质序列数据库;将基准蛋白质序列数据库中蛋白质序列进行特征提取,并将提取的特征数据进行特征融合;将融合后的特征数据作为深度卷积神经网络的输入,对深度卷积神经网络进行训练,得到深度卷积神经网络分类器;接收待预测的蛋白质序列,进行特征提取并进行相应的特征融合,输入到训练后的深度卷积神经网络分类器,对其蛋白质亚细胞位置进行预测定位。本发解决了目前蛋白质亚细胞定位研究中选择优势特征的难题,同时进一步提高准确度。
技术领域
本发明属于生物信息学中蛋白质亚细胞定位的技术领域,尤其是涉及一种基于深度卷积神经网络的蛋白质亚细胞定位方法和装置。
背景技术
随着信息技术的发展和人类基因组计划的启动,生物信息学逐渐成为近年来的研究热门领域,其主要目的是通过分析和统计各种生物数据,来揭示生物系统的规律。在研究数以千计的生物数据和杂乱无章的基因序列或蛋白质序列过程中,产生了很多新的研究方向,其中一个非常重要的方向就是蛋白质的亚细胞定位。
细胞是生物学中最基本的单位,但其结构却是高度复杂的,根据各个结构在细胞内部的位置和所承担的功能不同,可以分为各种细胞器,也就是亚细胞。不同的亚细胞结构为蛋白质行使特定功能提供了不同的场所,蛋白质也只有在其特定的场所内,才能发挥各自的功能,维持生命体正常的生命活动。因此,对蛋白质的亚细胞位置进行准确的定位,与研究蛋白质在生命体中的意义和作用原理有着至关重要的关联。
人类基因组学和蛋白质组学的蓬勃发展随之带来了数据库中蛋白质序列数量的井喷式增加,传统的以实验为主确定蛋白质亚细胞位置的方式变得无法适应当前的状况,人们开始尝试使用机器学习的方法来实现新的蛋白质亚细胞定位,即将一条未知的蛋白质序列通过机器学习的方法归属到已知的亚细胞位置,通过收集已知蛋白质的特征信息了解未知蛋白质的生物特性等。
机器学习是人工智能的一种方法,其在蛋白质亚细胞定位中的应用主要包含三个步骤:基准数据集的建立、蛋白质的特征提取和分类器的设计,通过其主要步骤可以看出,使用机器学习的蛋白质亚细胞定位不同于采用实验定位的传统方式,更适合处理大量无序的数据,并且有更好的泛化能力。目前,机器学习在蛋白质亚细胞定位中已经取得了不错的效果,为大量新的蛋白质序列做出了注释,一定程度上解决了生物数据迅速增加的难题,但是还存在不少需要改进的地方。
近期,采用机器学习的蛋白质亚细胞定位关注的重点还是预测精度的提升,如果需要提高预测精度,就需要设计合适的分类器,并且提取适合这种分类器的蛋白质特征,即分类器的设计和蛋白质的特征提取方式是影响蛋白质亚细胞定位的两个关键因素。而在缺少足够实验数据的前提下想要找到合适的蛋白质特征提取方式是一件非常困难的事情,人们希望存在能够自主分辨特征优劣的分类器,而现在经常使用的支持向量机(SVM)、K-最邻近模型(KNN)和人工神经网络(ANN)等,都无法做到这点。
不同于以上提到的几种分类器,深度学习算法通过对输入数据进行多层线性滤波和非线性变换,能够从大量的输入特征中选择优势特征进行学习。典型的深度学习结构包括深度置信网络(DDBN)、深度自编码器(SAE)和深度卷积神经网络(DCNN)等。深度学习算法最早被应用于图像和语音的特征提取过程,近几年开始被用于生物信息学的相关领域,并且在某些方向上显示出优于现有算法框架的效果。
深度卷积神经网络(DCNN)是深度学习算法的一种典型的学习模型,其本质是输入到输出的映射,它能够学习大量输入到输出的映射关系,而不需要任何输入和输出之间的精确的数学表达。通过对输入特征进行卷积运算和线性滤波,可以对特征数据进行增强,并且降低噪音。深度卷积神经网络的训练过程包括向前传播阶段和向后传播阶段两部分,执行的是有导师训练,每一层的神经元都可以共享一组权值,这样一方面可以降低网络的复杂度,另一方面还可以使网络的训练和学习通过并行的方式进行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810002518.7/2.html,转载请声明来源钻瓜专利网。