[发明专利]一种基于多源异质信息聚合的蛋白质功能预测方法在审
申请号: | 202310026625.4 | 申请日: | 2023-01-09 |
公开(公告)号: | CN116092577A | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 张树刚;魏志强;马文健 | 申请(专利权)人: | 中国海洋大学 |
主分类号: | G16B15/20 | 分类号: | G16B15/20;G06F17/16;G16B40/00;G06N3/0464;G06N3/0455;G06N3/08 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 张贵宾 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多源异质 信息 聚合 蛋白质 功能 预测 方法 | ||
本发明公布了一种基于多源异质信息聚合的蛋白质功能预测方法,首先构建PPI、SSN网络用于提取蛋白特征,然后收集蛋白质结构域、亚细胞位置、信号通路等节点特征,用于蛋白质表征;进一步地,利用图掩码自动编码器(GraphMAE)融合多源特征,最后结合低维的蛋白质序列分支,实现多源异质性蛋白特征协同预测。本发明深度融合了多要素、多维度的蛋白质特征,并纳入重掩码图解器策略,克服了当前蛋白质功能预测方法中存在的特征源单一以及特征维度不丰富等问题,大大提高了蛋白质功能的预测效率。
技术领域
本发明涉及生物信息技术领域,特别涉及一种基于多源异质信息聚合的蛋白质功能预测方法。
背景技术
近年来,人们提出了许多可自动预测蛋白质功能的计算方法,这些方法通常会对所有的蛋白质功能根据其特性进行分类,每一类对应一个基因本体论(GO)术语,这也就使得一个蛋白质可以被多个GO术语注释。因此,蛋白质功能预测就可以看作是一个与GO术语相关的多标签分类任务。得益于蛋白质GO术语的快速发展,基于深度学习的蛋白质功能预测方法在预测性能上取得了前所未有的进步。
目前,基于深度学习的蛋白质预测方法可以分为两类,即基于蛋白质固有表示的方法和基于蛋白质网络的方法。前者仅从蛋白质固有表示中提取特征,例如基于蛋白一维序列和基于蛋白质二维接触图的功能预测模型。例如,DeepSeq使用卷积神经网络(CNN)提取序列特征,以预测人类物种中最常见的五种蛋白质功能。与DeepSeq类似,TALE应用了Transformer编码器作为基础架构,引入函数标签之间的关系来辅助函数预测。然而,这种仅基于序列的方法对于功能预测存在一定的局限性。因此,代表蛋白质中残基之间相互作用的接触图逐渐被用来提升蛋白质功能预测的准确性。
例如,DeepFRI根据原子间的欧几里德距离,从蛋白质三维坐标构建相应的接触图,然后将接触图和残基级特征纳入图神经网络(GCN)进行功能预测。上述方法依赖于蛋白质固有的表示,只针对单个靶点蛋白的序列或结构进行特征提取,而忽略了蛋白质之间丰富的生物学先验知识,如蛋白质之间的相互作用和同源性信息等,功能预测准确率还需进一步提高。于是,第二类方法——基于蛋白质网络的方法相继被提出。例如,DeepNF利用Random Walk with Restarts(RWR)构建了蛋白质-蛋白质相互作用(PPI)网络,并将其应用于蛋白质功能预测。与之不同,Graph2GO没有使用RWR,而是应用图编解码器架构直接计算PPI网络中每个蛋白质节点的低维向量,并将相同的过程应用于序列相似性网络(SSN),取得了较好的性能。尽管如此,上述两类方法中还是偏向于依赖单一的特征源,即序列、接触图或蛋白质网络。因此,需要探索一种可将蛋白质网络信息与蛋白质固有特征相结合的蛋白质功能预测方法。
在此,针对当前蛋白质功能预测方法中存在的特征源单一以及特征维度不丰富等问题,本发明依托图掩码自动编码器(GraphMAE)创新性地提出了一种可深度融合多源异质性蛋白质特征的蛋白质功能预测新方法——HIF2GO。该方法深度融合了PPI和SSN网络中的拓扑特征和节点特征,并结合利用ESM-1b充分提取的序列特征实现了特征的多要素、多维度融合,大大提高了蛋白质功能的预测效率。
发明内容
蛋白质功能对于研究疾病的发病机制和寻找新的靶点具有重要意义。然而,由于蛋白质功能预测的实验规模、设计方法和工作成本等限制的存在,大多数功能未知的蛋白质不太可能进行实验注释。因此,高通量计算方法更适合注释广阔的蛋白质空间结构,并且此类方法在注释从头设计获得的非天然蛋白质方面同样具有潜力。
随着深度学习技术的快速发展,蛋白质功能预测任务逐渐“AI”化。基于深度学习技术的蛋白质功能预测以蛋白质固有表示及其空间信息等特征为基础可快速预测蛋白质功能,从而节省了大量的实验成本并大大提高了蛋白质功能的预测效率。针对以往蛋白质功能预测模型的不足,本发明创新性的提出了一种基于多源异质信息聚合的蛋白质功能预测方法。
本发明是通过如下技术方案实现的:一种基于多源异质信息聚合的蛋白质功能预测方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310026625.4/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置