[发明专利]基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统有效
申请号: | 202211226272.4 | 申请日: | 2022-10-09 |
公开(公告)号: | CN115312119B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 李劲松;马静;王昱 | 申请(专利权)人: | 之江实验室 |
主分类号: | G16B15/20 | 分类号: | G16B15/20;G16B40/00;G06V10/764;G06N3/0464;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 蛋白质 三维 结构 图像 鉴定 方法 系统 | ||
本发明公开了一种基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统,本发明基于结构相似性鉴定蛋白质结构域,能够有效解决当序列一致性不高时,蛋白质多序列比对错误导致的蛋白质结构域识别错漏;本发明构建基于动态图卷积神经网络的点云分割模型,可通过整合全局结构特征与局部结构特征,同时完成蛋白质结构域的分割和蛋白质结构域语义标签的获取。
技术领域
本发明属于医疗信息技术领域,尤其涉及一种基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统。
背景技术
国际药物研究的竞争主要集中在药物靶点的研究,对药物开发和重利用具有极其重要的作用,是一项非常艰巨的任务。一旦靶点具有成药性,将有一系列的候选药物进入临床筛选阶段,对相关疾病领域的治疗将有重大的影响。人体中约含有超过10万种蛋白质,其中潜在的药物靶点蛋白预计8000个左右,目前仅有约500种蛋白类药物靶点被发现。科学界普遍认为药物与靶点的相互作用是由药物与蛋白质结构域的相互作用介导的。因为蛋白质具有模块化结构,而且同一类结构域可以在不同的蛋白质中重复发现,所以一种药物可结合多个蛋白质靶点,其原因可能与药物靶向具有同一类结构域的蛋白质有关,也可能是大多数药物的多重药理作用的一个重要因素。因此准确鉴定蛋白质的结构域就显得尤为关键,对于理解药物的作用机制以及设计能够与这些治疗靶点结合的新药非常重要。目前已经发展了许多从蛋白质的氨基酸序列来确定蛋白质结构域的方法。这些方法大致可以分为四类:基于模板的方法,从头计算方法,基于同源蛋白质模板和从头计算的方法以及元结构域预测。
虽然,蛋白质的氨基酸序列决定了蛋白质的结构,但随着生物序列模式和特性知识的发展,蛋白质氨基酸序列比对的缺点逐渐显现。首先,其前提假设是同源蛋白质氨基酸序列由一系列线性排列和保守的序列延伸而成,但是这一共线性的假设在现实世界中经常被违反。其次,在蛋白质氨基酸序列一致性低于某一临界点的情况下,蛋白质氨基酸序列比对的准确性迅速下降。在实际应用中,蛋白质氨基酸序列一致性在20-35%的区域通常被认为是“过渡带”,其中远程同源序列与随机序列混合。蛋白质氨基酸序列一致性低于20%的区域则无法通过简单的序列对齐可靠地确定同源关系。这种问题在蛋白质超家族注释中尤其凸显,因为超家族成员之间的蛋白质氨基酸序列一致性在8-10%,但仍保持结构上的亲缘关系,即蛋白质三维结构相似。再者,准确的多序列比对计算是一个NP-hard问题,时间复杂度非常高(为输入的蛋白质氨基酸序列长度的乘积),任何速度优化策略都牺牲了最优和最高评分的比对识别,而常常导致了不准确,限制许多下游分析的质量。
蛋白质的三维结构解析一直是结构生物学的难点,但近期Alphafold2等利用深度神经网络学习算法,可通过蛋白质氨基酸序列来准确预测蛋白质的三维结构,接近实验测定的水平(精度达90%以上)。这些预测的蛋白质三维结构虽然不能完全替代蛋白质实验结构,但是由于相对准确率较高,在基本的形态折叠上已经达到了较高的精度。即使是如此高精度的蛋白质计算三维结构,但其中的蛋白质结构域信息仍不明确。
发明内容
本发明的目的在于针对传统的基于蛋白质氨基酸序列预测蛋白质结构域的分析方法的不足,提供一种基于蛋白质三维结构图像鉴定蛋白质结构域的方法及系统,由于同一类结构域的结构之间有较大的相似性,因此本发明基于蛋白质的三维结构图像和动态图卷积神经网络,整合蛋白质三维结构的全局结构特征和局部结构特征,构建点云分割模型鉴定蛋白质的结构域组成。
本发明的目的是通过以下技术方案来实现的:
根据本说明书的第一方面,提供一种基于蛋白质三维结构图像鉴定蛋白质结构域的方法,包括以下步骤:
S1,数据采集及预处理,包括:获取蛋白质信息、蛋白质结构域注释信息、蛋白质三维实验结构、蛋白质三维计算结构、蛋白质二级结构注释信息;
S2,生成训练集合,包括:从蛋白质三维实验结构中提取主链碳、氮、氧原子的三维坐标构建三维原子点云,经标准化预处理后,对每个原子点都赋予所属蛋白质结构域的语义标签,形成蛋白质三维结构图像作为训练集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211226272.4/2.html,转载请声明来源钻瓜专利网。