[发明专利]基于图神经网络表征的蛋白质与核酸结合位点预测方法在审
申请号: | 202110037110.5 | 申请日: | 2021-01-12 |
公开(公告)号: | CN114765063A | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 夏莹;沈红斌;潘小勇;夏春秋 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G16B20/30 | 分类号: | G16B20/30 |
代理公司: | 上海交达专利事务所 31201 | 代理人: | 王毓理;王锡麟 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 神经网络 表征 蛋白质 核酸 结合 预测 方法 | ||
一种基于图神经网络表征的蛋白质与核酸结合位点预测方法,通过构建蛋白质与核酸相互作用数据集,经样本融合处理后提取其中蛋白质中每个残基的位置和特征信息及其结构上下文,并据此构建残基结构上下文的图表示,通过层次图神经网络对待预测的蛋白质的图表示进行预测,得到每个残基与DNA/RNA结合的概率,实现蛋白质与核酸结合位点预测。本发明通过基于结构上下文的残基的图表示和层次图神经网络模型来从图表示中学习结合位点的关键结构和特征模式。
技术领域
本发明涉及的是一种生物工程领域的技术,具体是一种基于蛋白质局部结构上下文的图神经网络表征的蛋白质与核酸结合位点预测方法。
背景技术
蛋白质与核酸相互作用在多种生命活动中起着重要的作用,例如DNA复制、转录、翻译、基因的表达、信号的传导和识别等,学习蛋白质与核酸相互作用对分析基因、蛋白质功能和药物设计方面存在重要的意义。由于通过实验方法分析蛋白质与核酸相互作用存在价格昂贵、耗时等缺点,无法满足目前海量蛋白质分析的需求,基于计算的方法变得越来越重要。目前基于计算的方法可以分为基于蛋白质序列的方法和基于蛋白质结构的方法。基于序列的方法通过从蛋白质序列学习结合位点的局部模式,但是由于结合位点往往具有空间结构的保守性,基于序列的方法或许不足以获取充分的结合位点的特征,从而影响了预测准确性。基于结构的方法试图从蛋白质的结构信息中学习结合位点的局部三级结构模式,由于三级结构直接决定了蛋白质功能,因此基于结构的蛋白质结合位点预测算法往往具有更高的准确性。基于结构的方法的主要挑战是如何编码结构信息,并从其中学习结合位点的关键的结构和物化性质。目前有一些方法使用手工设计的蛋白质结构描述子,由于手工设计的描述子是预定义的,因此无法对下游任务针对性的提取关键的信息(Li,S.,Kazuo,Y.,Mar,A.K.and Standley,D.M.(2014)Quantifying sequence and structuralfeatures ofprotein–RNAinteractions.NucleicAcids Research,42,10086-10098.)。还有一些方法将蛋白质位置信息映射到空间上的三维网格中,并使用三维卷积神经网络学习结合位点在结构上的模式,这种方法的问题在于蛋白质中原子在三维空间中的分布是稀疏的,这不利于被映射到欧式空间中,并且很难保证蛋白质的旋转平移不变性(Jimenez,J.,Doerr,S.,Martinezrosell,G.,Rose,A.S.and De Fabritiis,G.(2017)DeepSite:protein-binding site predictor using 3D-convolutional neuralnetworks.Bioinformatics,33,3036-3042.)。如何更好的表示蛋白质的结构信息和物化性质,并准确的预测核酸结合位点仍然是一个挑战。
发明内容
本发明针对现有对蛋白质核酸结合位点的识别精度不高的问题,提出一种基于图神经网络表征的蛋白质与核酸结合位点预测方法,通过基于结构上下文的残基的图表示和层次图神经网络模型来从图表示中学习结合位点的关键结构和特征模式。
本发明是通过以下技术方案实现的:
本发明涉及一种基于图神经网络表征的蛋白质与核酸结合位点预测方法,通过构建蛋白质与核酸相互作用数据集,经样本融合处理后提取其中蛋白质中每个残基的位置和特征信息及其结构上下文,并据此构建残基结构上下文的图表示,通过层次图神经网络对待预测的蛋白质的图表示进行预测,得到每个残基与DNA/RNA结合的概率,实现蛋白质与核酸结合位点预测。
所述的蛋白质数据集,即与DNA/RNA发生相互作用的蛋白质数据集,其具体通过以下方式构建得到:从BioLip中提取蛋白质与核酸的复合物集合和蛋白质与核酸结合位点的标签,并根据复合物中碱基的类别提取与DNA结合的蛋白质集合、与RNA结合的蛋白质集合。
优选根据序列发布时间,将2016年1月6日前发布的序列作为训练集,其余作为测试集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110037110.5/2.html,转载请声明来源钻瓜专利网。