[发明专利]一种基于深度学习和机器学习的抗病毒肽预测方法有效
申请号: | 202111342907.2 | 申请日: | 2021-11-12 |
公开(公告)号: | CN114093427B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 葛瑞泉;夏一潇;贾刚勇;黄润根 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B30/00;G06N3/0442;G06N3/0464;G06N3/0455;G06N3/048;G06N3/08;G06F18/2411;G06N20/10 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310018 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 机器 抗病毒 预测 方法 | ||
本发明公开了一种基于深度学习和机器学习领域的抗病毒肽预测方法,该方法的具体步骤如下:步骤1、获取序列数据,其中所获取的序列数据为待预测的肽序列;步骤2、对待预测的肽序列进行预处理;步骤3、将步骤2中得到的数据进行预测,并输出预测结果。其融合模型选择将神经网络和机器分类相结合,并采取两步走的预测方法,在交叉实验和独立测试集上的评估结果显示,FusedModel相比于其他模型,有着良好的分类结果,为抗病毒肽的识别提供了快速而又准确的方法,方便现代医疗的研究以及治疗。
技术领域
本发明属于生物医学大数据领域,涉及一种基于深度学习和机器学习领域的抗病毒肽预测方法。
背景技术
对蛋白质分类识别的模型日益完善,其中不乏单纯的采用机器学习和深度学习的模型。而这两种方法各自有优缺点。机器学习由于自身是基于统计学而使精准预测成为可能,并且其能够在较小数据集上获得较好效果;但是相比于深度学习,其在精准度和泛化能力上略有不足。而深度学习需要大量的数据集,但是生物医学中大量的数据集是非常昂贵且稀少的,同时要想获得精准的预测效果,深度学习需要大量的资源和实践去训练。另外,在抗病毒的过程中,肽起着至关重要的作用,而快速识别抗病毒肽就成为关键一步。在现存的模型中,大部分方法采用了单一的机器学习或者深度学习方法,然而这种纯机器学习方法和纯深度学习方法在时间上对蛋白质结构类的预测效果精度低,预测数据容易丢失,并没有突出的表现。因此我们选择将机器学习和深度学习结合,从而达到既能快速训练,同时还能确保预测精准度和具备泛化能力的效果。
发明内容
本发明根据现有技术的不足,提出一种基于深度学习和机器学习领域的抗病毒肽预测方法,能够实现快速预测,并且精度高。
为了解决上述技术问题,本发明的技术方案为:
一种基于深度学习和机器学习的抗病毒肽预测方法,该方法的具体步骤如下:
步骤1、获取序列数据,其中所获取的序列数据为待预测的肽序列;
步骤2、对待预测的肽序列进行预处理;
步骤3、将步骤2中得到的数据进行预测,并输出预测结果,
所述步骤2包括:
步骤2.1、获取特征矩阵,按照预设的特征提取方法分别提取待预测的肽序列的特征并分别存储,定义待预测的肽序列数量为M,提取特征维度为N,将最后结果保存为维度为M*N的特征矩阵;
步骤2.2、对步骤1中的待预测的肽序列进行独热码编码(one-hot)。
所述步骤3包括:
步骤3.1、通过步骤2中获取的数据进行初步预测,并输出初步预测结果;
步骤3.2、将初步预测结果导入最终支持向量机SVM分类模型中得到最后预测,并输出预测结果。
作为优选,步骤2.1中按照18种特征提取方法分别提取待预测的肽序列的特征并分别存储。
作为优选,所述步骤2.2中,首先将待预测的肽序列统一成同一长度,序列不足的末尾补X,超出长度的进行截取前一部分,然后按照独热码编码规则进行编码得到独热码。
作为优选,所述步骤3.1中的初步预测包括:
步骤3.1.1、将步骤2.2中获得独热码导入至第一神经网络输出预测概率及预测标签;
步骤3.1.2、将步骤2.1中获得的18种特征矩阵分别导入LightGBM中,并分别输出18维的预测概率以及预测标签结果并保存;
步骤3.1.3、将步骤2.1中获得的18种特征矩阵分别导入至第二神经网络并输出18维的预测概率以及预测标签结果并保存;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111342907.2/2.html,转载请声明来源钻瓜专利网。