[发明专利]一种基于小样本学习的预测蛋白质乳酸化修饰位点的算法在审
申请号: | 202310564720.X | 申请日: | 2023-05-19 |
公开(公告)号: | CN116631506A | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 郭亚萍;吴宾;黎丝雨;史云舒;蒋沛然 | 申请(专利权)人: | 郑州大学 |
主分类号: | G16B20/30 | 分类号: | G16B20/30;G16B5/00;G16B40/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 450000 河南省郑*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 样本 学习 预测 蛋白质 乳酸 修饰 算法 | ||
1.一种小样本学习方法预测蛋白质乳酸化修饰位点,其特征在于,(1)同时考虑乳酸化修饰的序列特征和结构特征的影响,采用多特征分组的编码方法对乳酸化修饰位点进行编码;(2)因考虑到目前已鉴定的乳酸化修饰位点数量有限,针对阳性和阴性数据集极度不平衡问题,本发明提出一种基于小样本学习策略开发乳酸化修饰位点预测模型,引入集成学习实现多特征混合系统的构建,得到最终模型,使得本发明所公开的算法可以大规模预测乳酸化修饰位点。
2.根据权利要求1所述的一种小样本学习方法预测蛋白质乳酸化修饰位点,其特征在于,所建立的基于多特征分组的编码方案,包括:(1)收集乳酸化修饰位点信息:首先收集蛋白质乳酸化修饰位点信息;将所述乳酸化修饰位点作为阳性位点,将该乳酸化修饰蛋白质上与所述阳性位点相同氨基酸的其它位点作为阴性位点;将蛋白质的一级序列切割成以阳性位点或阴性位点为中心,上游和下游分别为n个氨基酸,总长度为2n+1个氨基酸序列;所有含有乳酸化修饰位点的氨基酸序列构成原始阳性数据集,所有含有所述阴性位点的非乳酸化修饰位点的氨基酸序列构成原始阴性数据集。(2)采用多特征分组的编码方案:采用了两组特征,包括基于氨基酸序列特征(特征集1)以及结构特征(特征集2)。逐个对步骤(1)所述总长度为2n+1个氨基酸的序列进行特征编码,得到数字向量特征。
3.根据权利要求2所述的一种小样本学习方法预测蛋白质乳酸化修饰位点,其特征在于,步骤(1)所述n大于等于1。
4.根据权利要求1和权利要求2所述的方法,其特征在于,所提出的一种基于小样本学习策略用于开发乳酸化修饰位点预测模型,含有以下步骤:
(1)分别采用基于SMOTE算法和随机欠采样RUS算法,实现原始阳性数据增强和原始阴性数据减弱,该小样本学习策略有助于解决阳性和阴性数据集不平衡问题;对于特征集1,采用SMOTE“合成”新样本。对于少数类别样本xi,SMOTE使用其k个近邻方法并计算与xi距离最近的k个小样本数据(该距离被定义为样本之间欧几里得距离的n维特征空间),从k个近邻中随机选择一个样本,使用以下公式生成新样本:
其中,xi是选定的邻近,δ是介于0和1之间的随机数。
对于特征集2,我们引入了基本随机欠抽样(RUS)算法,以减少不平衡,同时保持具有乳酸化修饰位点的蛋白质或肽段,从而减少多数类别样本的数量。
(2)通过步骤(1)所述方法得到新的阳性和阴性数据集特征,利用深度神经网络分别对阳性和阴性数据集的特征来构建预测模型,得到多个预测模型;
(3)通过步骤(2)所述方法得到多特征预测模型的输出结果,引入集成学习实现多特征混合系统的构建,得到最终模型,并预测乳酸化修饰位点:将每个特征预测模型输出结果集成新的输入特征,并利用惩罚逻辑回归进一步训练一个新的预测模型,该模型用于预测乳酸化修饰位点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州大学,未经郑州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310564720.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种药房粉尘清除装置及其使用方法
- 下一篇:一种智慧工厂数字孪生系统