[发明专利]一种预测蛋白质序列的方法、系统、装置及介质有效
申请号: | 202010458976.9 | 申请日: | 2020-05-27 |
公开(公告)号: | CN111710360B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 陈智华;古星月;邵泽辉;寇铮;刘文斌;方刚;石晓龙 | 申请(专利权)人: | 广州大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B30/00;G16B40/00;G16B50/30 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 胡辉 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 预测 蛋白质 序列 方法 系统 装置 介质 | ||
本发明公开了一种预测蛋白质序列的方法,包括以下步骤:获取原始数据,构建原始数据集;对原始数据集中的蛋白质序列进行特征提取,所提取的特征值包括蛋白质序列中氨基酸的组成值、转换值以及分布值;对提取的特征值进行降维处理,生成特征值的降维序列;根据特征值的降维序列对G蛋白偶联受体进行预测,并将预测结果进行可视化展示;选择氨基酸的组成值、转换值以及分布值作为特征值,使预测结果具有针对性,同时使得预测结果更为准确;并通过降维方法将提取出来的冗余的蛋白质序列样本的特征进行筛选,提升了蛋白质序列区分的效率;最后直观清晰地展示预测结果。本发明可广泛应用于大数据或机器学习技术领域。
技术领域
本发明涉及大数据、机器学习技术领域,尤其是一种预测蛋白质方法、系统、装置及介质。
背景技术
目前,国内外对蛋白质功能的检测主要是通过两个方面来实现,一是实验的方法,二是利用计算机建模。早期蛋白质功能的预测都是通过实验的方法来完成的,常用的试验方法有X射线晶体衍射分析、酵母杂交法、质谱法、核磁共振法、梵光共振能量转移技术和蛋白质芯片技术等。通过实验的方法能够准确的测定蛋白质的功能,但耗时长且实验的成本高,需要迫切地开发出新的计算方法,来快速准确得识别蛋白质序列得功能。
此外,早期对蛋白质序列得研究常用的方法是通过对比现有已知功能的序列和新的序列来预测其功能,也就是基于同源蛋白的功能对目标蛋白进行功能注释。1986年,Nakashima等人等率先提出了以20种氨基酸在一条序列中出现的概率为特征来数字化描述蛋白质序列,这种方法在膜蛋白预测问题中得到了广泛的应用,且取得了较好的预测结果。Chou提出了伪氨基酸组成的方法,将氨基酸物理化学性质的n阶相关因子加入特征;Cai等利用氨基酸的几大特性将氨基酸分组,并利用其组成、转换和分布信息构造了188维的特征来表示蛋白质序列。
至于分类器的选择,在生物信息学领域常见的机器学习算法包括随机森林、决策树、支持向量机、朴素贝叶斯和神经网络;Ding利用了g-gap残基组成构建了400维的特征,使用SVM的分类效果达到85.02%;Fu等提出了一种基于有向混合图重启动游走的方法来预测蛋白质的功能,在酵母菌和人类蛋白质上均取得了较好的实验效果。
综上所述,现有技术对于蛋白质序列的预测,不仅方法预测结果的精确度不高;而且预测蛋白质序列方法冗余复杂,效率低下。
发明内容
有鉴于此,为至少部分解决上述技术问题之一,本发明实施例目的在于提供一种预测蛋白质序列的方法,以及可以对应实现蛋白质序列预测方法的系统、装置以及存储介质。
第一方面,本发明的提供了一种预测蛋白质序列的方法,包括以下步骤:
获取原始数据,构建原始数据集;
对原始数据集中的蛋白质序列进行特征提取,所提取的特征值包括蛋白质序列中氨基酸的组成值、转换值以及分布值;
对提取的特征值进行降维处理,生成特征值的降维序列;
根据特征值的降维序列对G蛋白偶联受体进行预测,并将预测结果进行可视化展示。
此外,在本发明的一些实施例中,获取原始数据,构建原始数据集这一步骤,其具体包括:
从蛋白质家族数据库中获取蛋白质序列,构建正样本数据集;
对正样本数据集进行数据清洗,将序列编号相同的蛋白质序列进行整合;
从蛋白质家族数据库中剔除完成数据清洗和整合后的正样本数据集,得到负样本数据集。
在本发明的一些实施例中,对原始数据集中的蛋白质序列进行特征提取这一步骤,其具体包括:
根据蛋白质序列中氨基酸的数目或者氨基酸的长度得到组成值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010458976.9/2.html,转载请声明来源钻瓜专利网。