[发明专利]基于分子语义向量的无监督学习药物虚拟筛选方法和系统在审
申请号: | 202010920613.2 | 申请日: | 2020-09-04 |
公开(公告)号: | CN112151127A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 牛张明;郑双佳;江荧辉 | 申请(专利权)人: | 牛张明;韦德·门佩斯-史密斯 |
主分类号: | G16C20/50 | 分类号: | G16C20/50;G16C20/70;G16C20/30;G16B15/00;G06N3/08 |
代理公司: | 上海智晟知识产权代理事务所(特殊普通合伙) 31313 | 代理人: | 张东梅 |
地址: | 浙江省杭州市钱塘*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分子 语义 向量 监督 学习 药物 虚拟 筛选 方法 系统 | ||
本发明公开了一种基于分子语义向量的无监督学习药物虚拟筛选方法,包括:建立预训练数据库;构建候选集数据库D1;构建目标化合物库D2;对所述预训练数据库、候选集数据库D1和目标化合物库D2进行数据预处理,将所述预训练数据库、候选集数据库D1和目标化合物库D2中所有化合物转换成适合机器学习的文件储存格式的数据集;建立无监督深度学习的小分子量化模型,并用预训练数据库中的数据对量化模型进行预训练得到经训练的量化模型;利用经训练的量化模型对所述候选集数据库D1和目标化合物库D2中的数据进行量化,得到候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb;利用空间向量相似度算法计算候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb的相似度得分矩阵R;以及通过对相似度得分矩阵R中的结果进行综合排序,挑选出候选集数据库D1中综合得分最高的前K个化合物。
技术领域
本发明涉及化学信息学和生物信息学领域。具体而言,本发明涉及基于分子语义向量的无监督学习药物虚拟筛选方法和系统。
背景技术
药物筛选指的是采用适当的方法,对可能作为药物使用的物质(采样)进行生物活性、药理作用及药用价值的评估过程。药物筛选是生化水平和细胞水平的筛选。随着计算机技术的更新以及大数据技术的发展,应用虚拟筛选策略进行药物筛选逐渐成为主流。虚拟筛选,即在进行生物活性筛选之前,利用计算机算法模拟目标靶点与候选药物之间的相互作用,计算两者之间的亲和力大小,以降低实际筛选化合物数目,同时提高先导化合物发现效率。分子对接是一种计算方法,试图预测配体与蛋白质结合的最可能的位置、方向和构象,以不同方式预测配体与蛋白质的结合自由能,就是找到配体与受体在其活性区域相结合时能量最低的构象,从而达到从几十到上百万个分子中,发现具有药性的先导化合物的目的。
在新药发现过程中,虚拟筛选的应用可以提高活性分子的富集,降低筛选的成本。近年来已引起科研机构和制药公司的高度重视。常用的虚拟筛选方法可以分为基于结构的虚拟筛选(SBVS)和基于配体的虚拟筛选(LBVS)。基于结构的虚拟筛选虽然结合蛋白靶标信息有利于全新药物的发现,但其强烈依赖于蛋白靶标三维结构,这使得基于结构的筛选常常难以展开。基于配体的虚拟筛选的主要科研精力放在各种分子描述符的产生、相似性的比较。基于配体的虚拟筛选的优势在于速度更快,一般可作为虚拟筛选的最初阶段,劣势在于很难找到不同于已知分子的新的骨架。
发明内容
本发明公开了一种基于分子语义向量的无监督学习药物虚拟筛选方法。该方法通过无监督深度学算法进行分子量化的建模并通过空间相似度计算算法进行小分子化合物虚拟筛选。
本发明通过优化算法使其缩短寻找候选化合物数据集与目标化合物集中活性相似化合物的过程,提高了小分子数据库的基于该方法的虚拟筛选的效果和效率。
根据本发明的一个方面,提供一种基于分子语义向量的无监督学习药物虚拟筛选方法,包括:
建立预训练数据库;
构建候选集数据库D1;
构建目标化合物库D2;
对所述预训练数据库、候选集数据库D1和目标化合物库D2进行数据预处理,将所述预训练数据库、候选集数据库D1和目标化合物库D2中所有化合物转换成适合机器学习的文件储存格式的数据集;
建立无监督深度学习的小分子量化模型,并用预训练数据库中的数据对量化模型进行预训练得到经训练的量化模型;
利用经训练的量化模型对所述候选集数据库D1和目标化合物库D2中的数据进行量化,得到候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb;
利用空间向量相似度算法计算候选集量化结果矩阵Va和目标化合物库量化结果矩阵Vb的相似度得分矩阵R;以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于牛张明;韦德·门佩斯-史密斯,未经牛张明;韦德·门佩斯-史密斯许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010920613.2/2.html,转载请声明来源钻瓜专利网。