[发明专利]蛋白质检索模型构建方法、检索方法、设备和存储介质在审
申请号: | 201910785465.5 | 申请日: | 2019-08-23 |
公开(公告)号: | CN110556159A | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 彭玉旭;彭贤;张广平;罗元盛;黄园媛 | 申请(专利权)人: | 长沙理工大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B50/30 |
代理公司: | 44205 广州嘉权专利商标事务所有限公司 | 代理人: | 赵琴娜 |
地址: | 410114 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检索 形状描述符 三角网格 蛋白质 不敏感性 存储介质 检索模型 检索算法 检索效率 简化处理 溶剂排除 数据集中 种蛋白质 转换过程 变形的 不变性 去噪声 冗余 构建 算法 融合 申请 | ||
本申请公开了一种蛋白质检索模型构建方法、检索方法、设备和存储介质,对数据集中的所有蛋白质分别生成溶剂排除表面的三角网格,对三角网格进行去冗余和去噪声的简化处理,缩短检索时间,提高检索效率;检索算法融合WKS与HKS两种算法,保持了形状描述符在转换过程中的不变性,加强了形状描述符对蛋白质变形的不敏感性,提高了检索精度。
技术领域
本申请涉及生物信息学和计算机生物学技术领域,具体涉及一种蛋白质检索模型构建方法、检索方法、设备和存储介质。
背景技术
蛋白质相似性分析已经成为生物信息学和计算机生物学的热门话题,三维分子结构在蛋白质功能预测、计算机辅助分子设计、合理的药物设计和蛋白质对接等方面有着广泛的应用,使用相关技术研究蛋白质的结构,使人类更加准确地掌握蛋白质结构和功能的知识,是当今生物信息学中最重要的课题之一,将促进生物学、医学、药学等生命科学领域的发展。
随着分子数据库的快速增长,蛋白质的分子研究受益于结构基因组学项目,并以此获取到越来越多的功能仍未知的蛋白质结构。目前的蛋白质数据库已然非常庞大,从数据库中寻找含特定功能和要求的数据需要合适的蛋白质结构编码,以便快速比较。在分子对接过程中,研究者常模拟筛选到的分子与大分子生物受体对接的过程,以估计不同蛋白质的结合性能,这些技术催生了海量的类药物分子数据库。现代化学和药物研究中的三维分子结构数据库相较于原本的分子数据库,三维的分子数据库收集了更加大量的化学知识,比如分子中原子的空间位置,通过包含几个可能的构象来了解分子的灵活性,甚至能进一步分析出分子的生物活性细节,这种特殊形式的扩展,使得三维的数据库应用场景更加广泛,得到的结果更精确。
对三维蛋白质模型检索算法而言,最大的挑战就是形状描述符的设计。由于三维蛋白质表现出丰富的可变性以及蛋白质分子间的互相作用,要求形状描述符在形状的不同转换中保持形式不变,而且要具有对蛋白质变形的不敏感性及易于计算和存储的特点。传统的蛋白质检索方法是基于内容的形状检索,使用蛋白质形状本身作为查询依据,并基于形状的几何拓扑属性的比较,能取得一定的检索效果。但由于三维蛋白质表现出丰富的可变性,而传统方法要求在不同的转换类下,必须保证基本的三维表面形状是不变的,这就使得基于内容的形状检索变得更加复杂,且传统的检索框架对数据的预处理不友好,使得模型冗余检索效率低下,限制了三维蛋白质模型形状检索的发展和应用。
发明内容
本申请实施例提供一种蛋白质检索模型构建方法、检索方法、设备和存储介质,解决相关技术利用蛋白质形状本身作为查询依据时存在的检索效率低下及复杂度高的问题。
本申请解决其技术问题所采用的技术方案如下:
一方面,提供一种蛋白质检索模型构建方法,包括:
对数据集中的所有蛋白质分别生成溶剂排除表面的三角网格,并进行简化和缺陷修复;
用WKS算法计算经前一步骤处理后所有三角网格每个顶点的WKS特征,选取适量的WKS特征,用K均值算法进行聚类,生成第一词典,根据每个蛋白质的三角网格的每个顶点的WKS特征和所述第一词典,计算相应蛋白质的第一BoF特征;用HKS算法计算经前一步骤处理后所有三角网格每个顶点的HKS特征,选取适量的HKS特征,用K均值算法进行聚类,生成第二词典,根据每个蛋白质的三角网格的每个顶点的HKS特征和所述第二词典,计算相应蛋白质的第二BoF特征;
将每一个蛋白质的所述第一BoF特征和第二BoF特征进行归一化处理并拼接,得到每一个蛋白质的第三BoF特征;
根据不同蛋白质的第三BoF特征的差异程度进行相似度评估;
模型训练,确定所述三角网格模型面大小及所述第一词典和第二词典大小。
优选的,所述三角网格模型面大小为4000,所述第一词典和第二词典大小均为1000。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙理工大学,未经长沙理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910785465.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:抗心肌纤维化药物的筛选方法
- 下一篇:一种生物样本分析检测系统