[发明专利]基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法在审
申请号: | 201911365158.8 | 申请日: | 2019-12-26 |
公开(公告)号: | CN111081311A | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 于彬;崔晓文;王明辉;王磊 | 申请(专利权)人: | 青岛科技大学 |
主分类号: | G16B15/00 | 分类号: | G16B15/00;G16B20/00 |
代理公司: | 昆明普发诺拉知识产权代理事务所(特殊普通合伙) 53209 | 代理人: | 葛玉军 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 蛋白质 赖氨酸 丙二酰化位点 预测 方法 | ||
1.一种基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于包括如下步骤:
1)收集数据:从蛋白质数据库和相关文献中收集实验验证的赖氨酸丙二酰化位点数据;
2)特征编码:提取正负样本蛋白质的序列信息,物理化学性质和进化信息,对正负样本进行多种特征提取;
3)特征融合:将提取的多种蛋白质特征信息融合,得到特征空间;
4)构建预测模型:将融合特征输入到深度神经网络中,进行预测丙二酰化位点和非丙二酰化位点;利用交叉验证进行训练,结合评价指标对预测结果进行评价,评估模型的预测性能和鲁棒性;构建E.coli、H.sapiens和M.musculus数据集上蛋白质丙二酰化位点的预测模型DeepMal;
5)丙二酰化位点预测:获取待分析蛋白质的序列作为独立测试数据集,输入步骤4)中的预测模型DeepMal中,得到丙二酰化位点预测结果并输出。
2.根据权利要求1所述的基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于:所述步骤1)中的赖氨酸丙二酰化位点数据来自数据集E.coli、H.sapiens和M.musculus,每条蛋白质序列窗口大小为25。
3.根据权利要求1所述的基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于:所述步骤1)中正样本是经实验验证标记的丙二酰化位点的数据标记样本;负样本是从与正样本相同的蛋白质中随机挑选出与正样本数量相同但未标记的丙二酰化位点的数据标记样本。
4.根据权利要求1所述的基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于:所述步骤2)特征提取采用Enhanced amino acid composition、Enhanced groupedamino acid composition、Dipeptide deviation from expected mean、K nearestneighbors和BLOSUM62矩阵进行特征提取,其中
2-1)Enhanced amino acid composition:从每条蛋白质序列的N-末端连续滑动到C-末端,计算固定长度子序列的氨基酸出现频率,通常用于编码长度相等的蛋白质序列;EAAC特征提取计算公式为:
t∈{A,C,D,...,Y},win∈{windowl,window 2,...,win dow L}
其中,N(t,win)是滑动窗口win中氨基酸类型t的个数,N(win)是滑动窗口win的大小,固定长度的序列窗口大小默认值为5,得到420维特征向量;
2-2)Enhanced grouped amino acid composition:将20种氨基酸划分为五类,包括脂族基团(g1:GAVLMI),芳族基团(g2:FYW),正电荷基团(g3:KRH),负电荷基团(g4:DE)和不带电荷基团(g5:STCPNQ),其计算公式如下:
g∈{g1,g2,g3,g4,g5},win∈{window1,window2,…,windowL}
其中,N(g,win)是滑动窗口win中g组氨基酸的个数,N(win)是滑动窗口win的大小,固定长度的序列窗口大小默认值为5,得到105维特征向量;
2-3)Dipeptide deviation from expected mean:通过计算二肽组成(DC),理论平均值(TM)和理论方差(TV)三个参数来构建400维的DDE特征向量,其计算公式如下:
r,s∈{A,C,D,…,Y}
其中,Nrs是氨基酸对rs的个数,N是蛋白质序列的长度;
其中,Cr是编码第一个氨基酸的密码子数,Cs是编码第二个氨基酸的密码子数,CN是可能的密码子总数;
2-4)K nearest neighbors:利用局部序列聚类信息预测丙二酰化位点,聚类信息即通过将一个蛋白质序列片段比对正负数据合并的比对集序列,通过KNN算法提取蛋白质序列聚类特征,详细描述如下:
2-4-1)根据局部序列相似性分别在正数据集和负数据集中找到其KNN特征:对于两个本地序列s1和s2,距离Dist(s1,s2)定义为:
其中p表示蛋白质序列片段中中心位点的侧翼残基数,i表示序列片段中氨基酸的所在位置;Sim是氨基酸相似性打分矩阵,用BLOSUM62矩阵来代替
其中a和b是两个氨基酸,M是BLOSUM62替换矩阵,max{M}/min{M}为BLOSUM62替换矩阵中的最大/最小数;
2-4-2)提取相应的KNN特征:通过结合正负样本形成一个比对数据集,计算从蛋白质序列到比对数据集集的平均距离,对计算的距离进行排序,然后选择KNN参数,计算KNN分数,即KNN中正样本的百分比,要获得多个特征,选择不同的k值,得到KNN特征,k取2,4,8,16,32,64,得到6维特征向量;
2-5)BLOSUM62:建立在氨基酸序列的比对上,两个肽序列之间的同一性不超过62%,基于BLOSUM62中20个氨基酸的取代分数,窗口长度为25个氨基酸的片段序列编码为500维的特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛科技大学,未经青岛科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911365158.8/1.html,转载请声明来源钻瓜专利网。