[发明专利]考虑界面信息和相互作用能的蛋白质-DNA结合亲和性预测方法在审

专利信息
申请号: 202210785327.9 申请日: 2022-06-30
公开(公告)号: CN115083515A 公开(公告)日: 2022-09-20
发明(设计)人: 李春华;杨爽;孙晓晗 申请(专利权)人: 北京工业大学
主分类号: G16B15/30 分类号: G16B15/30;G16B30/10;G16B40/00;G16B50/00
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 张立改
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 考虑 界面 信息 相互作用 蛋白质 dna 结合 亲和性 预测 方法
【权利要求书】:

1.考虑界面信息和相互作用能的蛋白质-DNA结合亲和性预测方法,其特征在于,是一种考虑界面信息和相互作用能的基于集成回归模型的蛋白质-DNA结合亲和性预测方法(ensemble model for Protein-DNA Binding Affinity prediction,emPDBA),包括三个步骤:一是对复合物结构进行分类,二是提取复合物特征,三是使用集成回归模型预测该复合物的结合亲和性。

2.按照权利要求1所述的考虑界面信息和相互作用能的蛋白质-DNA结合亲和性预测方法,其特征在于,具体包括以下:建立模型前,首先构建了训练集和测试集;

从PDBBind数据库、ProNAB数据库和Yang等人在2020年PreDBA工作(Sci Rep,2020,10(1):1278)中构建的数据集中获得了蛋白质-DNA实验结合亲和性数据以及它们的复合物结构PDB ID号,使用CD-HIT工具根据蛋白质序列相似性40%去冗余,最终得到了340个样本,从中,随机抽取36个样本作为独立测试集,其余样本作为训练集;列出了实验测定蛋白质-DNA结合亲和性时的温度T和解离常数Kd,根据这两个数据可以获得实验结合亲和性△G;

下面对蛋白质-DNA复合物结构结合亲和性预测方法的三个步骤进行描述:

步骤1:对复合物结构进行分类

DNA分子通常折叠为单链或双链的形式,这在一定程度上使得它们与蛋白质形成了不同模式的相互作用,因此,首先基于DNA的单双链形式,将蛋白质-DNA复合物分为两种粗略类型:双链DNA复合物(Double)和其他混杂复合物(MISC),后者包括含有多条DNA链的复合物和DNA单链的复合物;接着根据蛋白质界面残基占表面残基的百分比:≤10%、10-20%、≥20%,将双链DNA复合物又分为对应的三种类型:Double I、Double II、Double III;将双链DNA复合物细分为三种类型,是因为界面面积与结合亲和性密切相关;界面残基被定义为氨基酸残基中至少有一个原子与DNA中任一原子间距离小于的氨基酸残基;根据上述规则,蛋白质-DNA复合物被分为4种详细类型,分别为Double I、Double II、Double III和MISC;之后,针对每一种复合物详细类型,提取特征,建立有针对性的结合亲和性预测模型;

步骤2:提取复合物特征

从蛋白质-DNA复合物中提取蛋白质和DNA的序列特征、结构特征以及复合物界面特征和相互作用能特征,具体特征描述如下:

来自蛋白质方面的特征:从复合物中蛋白质部分共提取了9个序列特征和22个结构特征;上述序列特征包括:4种类型氨基酸残基中每种类型氨基酸残基的数量和该种类型氨基酸残基数量占全部氨基酸残基数量的百分比,以及蛋白质的分子质量;4种类型氨基酸残基分别为:非极性残基(Ala、Val、Leu、Ile、Phe、Trp、Met、Pro)、极性不带电残基(Thr、Ser、Cys、Asn、Gln、Tyr、Gly)、带正电残基(Lys、Arg、His)和带负电残基(Asp、Glu);结构特征包括:8种二级结构类型中每种二级结构类型含有的氨基酸残基的数量和该种二级结构类型含有氨基酸残基数量占全部氨基酸残基数量的百分比、α螺旋的数量和分子质量、β折叠的数量和分子质量,以及蛋白质的溶剂可及表面积和体积;8种二级结构类型包括:α-helix(H)、β-bridge(B)、β-ladder(E)、310-helix(G)、π-helix(I)、turn(T)、bend(S)和不确定(M)的二级结构;二级结构类型使用DSSP工具计算,溶剂可及表面积使用NACCESS工具计算;

来自DNA方面的特征:从DNA中共提取了33个序列特征和2个结构特征;DNA对应的序列特征包括:16种近邻二核苷酸对(如CG、AT等)中每种近邻二核苷酸对的数量和该种近邻二核苷酸对数量占全部近邻二核苷酸对数量的百分比,及DNA的分子质量;DNA结构特征包括:DNA的溶剂可及表面积和体积;

来自复合物方面的特征:共计提取了18个复合物界面特征、16个能量特征和6个其他特征;其中18个复合物界面特征包括:界面上4种类型氨基酸残基中每种类型氨基酸残基的数量和该种类型氨基酸残基数量占全部界面氨基酸残基数量的百分比、界面上4种核苷酸中每种核苷酸的数量和该种核苷酸数量占全部界面核苷酸数量的百分比、界面面积和界面氢键数量;界面面积为蛋白质和DNA各自溶剂可及表面积加和与复合物溶剂可及表面积的差值的一半;界面氢键数量是使用VMD软件计算蛋白质与DNA间形成氢键的数量;16个能量特征包括:获得的基于知识的统计势、7个物理能量项和8个由MIBPB工具计算的能量特征;

进一步统计势是我们从1545个非冗余的蛋白质-DNA复合物中提取的考虑蛋白质二级结构信息的60×4氨基酸-核苷酸成对偏好统计势,其获取过程描述如下:从NDB(NucleicAcid database)数据库中获得截止2020年10月所有蛋白质-DNA复合物结构,共计5387个;经过依据蛋白质和DNA序列相似性分别为70%和90%去冗余,构建了非冗余的复合物数据库;根据蛋白质二级结构单元的界面偏好性(Q),将8种二级结构类型分为3类:X(B、G、T;Q1)、Y(H、S、M;Q≈1)、Z(E、I;Q1);蛋白质二级结构单元的界面偏好性Q计算为:

其中,表示界面上k类二级结构类型包含的氨基酸残基数量,k类二级结构类型选自B、G、T、H、S、M、E、I中的一种,表示界面上所有8种二级结构类型包含的氨基酸残基数量,即界面上的氨基酸残基总数;表示非界面的表面上k类二级结构类型包含的氨基酸残基数量,表示非界面的表面上氨基酸残基的总数;Qk1表示k类二级结构类型倾向出现在界面上,Qk=1表示k类二级结构类型对出现在界面上没有偏好性,Qk1表示k类二级结构类型不倾向出现在界面上;

考虑蛋白质二级结构信息,计算了60×4氨基酸-核苷酸成对偏好性:

其中,a为20种氨基酸类型中的一种,m为3种蛋白质二级结构类型中的一种,b为4种核苷酸类型中的一种,am-b表示蛋白质二级结构类型为m(上述X,Y,Z中的一种)的a类型氨基酸与b类型核苷酸的成对;为界面上am-b成对的数量,为界面上所有氨基酸-核苷酸成对的总数量;为在非界面的表面上蛋白质二级结构类型为m(上述X,Y,Z中的一种)的a类型氨基酸出现的数量,为非界面的表面上所有氨基酸的数量;为非界面的表面上b类型核苷酸的数量,为非界面的表面上核苷酸的总数量;根据玻尔兹曼分布原理,将成对偏好性转化为相应的统计势能,计算复合物的统计势能时,将所有界面成对的能量贡献加和即可;

7个物理能量项包括:范德华吸引和范德华排斥静电短程吸引静电短程排斥静电长程吸引静电长程排斥和总的静电势能(Eele),范德华吸引和范德华排斥能量使用修正的李纳-琼斯势计算:

其中,rs,ij为蛋白质和DNA中的非氢重原子i和j的范德华半径之和,rij为非氢重原子两原子间的距离,εij为势能阱深乘积的平方根,范德华相互作用能在rij=0.89×rs,ij处是连续的,所有参数来自CHARMM19力场;静电能采用RosettaDock中使用的库伦模型来计算,总的静电势能为:

其中,以避免当原子i和原子j之间的距离rij过小时出现奇异值的情况;qi和qj为原子i和j所带的电荷数;原子间静电相互作用根据正负电的相互作用分为吸引能(两原子所带电荷性质相反)和排斥能(两原子所带电荷性质相同),又根据原子间距离分为长程(当此时Rij=rij)作用能和短程(当Rij=rij;当)作用能,故形成4项分别为静电短程吸引静电短程排斥静电长程吸引和静电长程排斥能;总的静电势能为以上四项之和;所有参数值均来自CHARMM19力场;

8个MIBPB能量特征通过在线服务器(https://weilab.math.msu.edu/MIBPB/)计算,包括:复合物的反应场能和静电溶剂化能、蛋白质的反应场能和静电溶剂化能、DNA的反应场能和静电溶剂化能、以及蛋白质和DNA在形成复合物前后反应场能的变化(复合物反应场能减去蛋白质反应场能减去DNA反应场能)和静电溶剂化能的变化(复合物静电溶剂化能-减去蛋白质静电溶剂化能减去DNA静电溶剂化能);

6个其他特征包括:复合物的体积和5个拓扑特征;拓扑特征的计算是根据复合物的残基网络模型获得的,在网络构建中,用Cα原子和P原子作为网络的节点,它们分别代表一个氨基酸和一个核苷酸;节点间距离小于某一距离截断值时建立连接,Cα原子节点间的距离截断为P原子节点间的距离截断为Cα原子节点与P原子节点间的距离截断为基于复合物的残基网络,计算5个拓扑特征:节点的平均度、节点的平均聚类系数、节点的平均度中心性、节点的平均接近中心性和节点的平均介数,5个拓扑特征由Python包中的NetworkX来计算;

在训练集上,使用前向特征选择算法筛选出用于每种详细类型复合物(步骤1中定义的4种)预测的特征子集(属于或选自上述106个特征中的);前向特征选择算法是一种贪心算法,通过迭代来获得特征的最优子集;在每次迭代中,根据交叉验证分数选出最好的新特征,并将其添加到特征子集中;从一个空的特征子集开始,在每次迭代中添加得分最高的最佳单个特征;这个过程会不断迭代,直到分数(决定系数R2)不再提高,或者所选特征的数量达到一个设定值;

步骤3:使用集成回归模型预测蛋白质-DNA复合物结合亲和性

最后,针对每一种蛋白质-DNA复合物详细类型,建立相应的集成回归模型来预测其结合亲和性;输入数据为对应该详细类型复合物所选择的最优特征的数据,输出为预测结合亲和性,通过调整集成回归模型的参数使预测结合亲和性值拟合实验结合亲和性值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210785327.9/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top