[发明专利]分子相似性搜索在审
申请号: | 202110275463.9 | 申请日: | 2021-03-15 |
公开(公告)号: | CN113409896A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | E·埃雷兹 | 申请(专利权)人: | GSI科技公司 |
主分类号: | G16C20/40 | 分类号: | G16C20/40;G16C20/50;G16C20/70;G16C20/90;G06N3/04;G06N3/08 |
代理公司: | 永新专利商标代理有限公司 72002 | 代理人: | 刘瑜 |
地址: | 美国加*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分子 相似性 搜索 | ||
一种用于查找与查询分子相似的分子的系统,包括:GCN、PFS向量提取器、经补偿的向量比较器(CVC)以及候选向量选择器。GCN已经被训练以分别根据输入查询分子向量或输入候选分子向量输出分子属性向量。GCN将查询原子特征集(AFS)向量和候选AFS向量转换为查询属性特征集(PFS)嵌入向量和候选PFS嵌入向量。PFS向量提取器从经训练的GCN的隐藏层中提取查询PFS嵌入向量和候选PFS嵌入向量。经补偿的向量比较器(CVC)针对至少一对查询PFS嵌入向量和一个候选PFS嵌入向量,计算经补偿的相似性度量(CSM)。候选向量选择器仅选择这种候选分子向量。
相关申请的交叉引用
本申请要求于2020年3月16日提交的美国临时专利申请62/989,937和2021年2月18日提交的美国临时专利申请63/150,597的优先权,上述申请通过引用合并于此。
技术领域
本申请总体上涉及相似性搜索,并且具体地涉及分子相似性搜索。
背景技术
药物工业的支柱之一是小分子药物。制药研究人员搜索将以他们期望的方式例如抑制酶或激活受体的分子。使用人工智能(AI)进行分子属性预测是已知的。
药物制造者使用分子相似性搜索来尝试预测诸如以下各项的属性:溶解度-分子可能溶解到血液中或进入细胞膜的程度;毒性-分子可能损害生物体的程度;以及血脑屏障(BBB)-分子是否进入大脑。在首先针对结构筛选出分子后,研究人员采用深度学习技术来查找具有与已知分子相似的期望属性的分子。
研究人员利用作为数学模型的神经网络,在这种情况下是卷积神经网络(CNN)或图形卷积网络(GCN),来识别分子的属性。这些可以在软件平台(例如,Rdkit、Deepchem等)上实现。
现在参考图1A和图1B,示出了GCN 1,其包括多个神经层;输入层2,多个隐藏层3和输出层4。每层包括多个节点6,并且每层中的节点可以通过多个连接7来连接。每个节点可以完全连接到前一层和后一层中的每个节点,但并不要求必须如此。
如下面详细描述的,表示分子的结构和原子特征的输入向量Vi在输入层2处进入GCN 1并且遍历隐藏层3,并且输出向量Vo在输出层4处离开GCN 1。
操作GCN的主要模式有两种:训练模式和操作模式(包括测试、验证和定期使用GCN1)。在训练期间,将具有已知的输出值Vo的输入向量Vi传递通过GCN 1。例如,通过交叉熵损失来调整节点6、权重W、连接7和GCN 1的其它特征(在下文中进一步说明),因此,当Vi遍历GCN 1时,GCN 1会将Vi转换为等于输出层4处的已知值Vo。训练GCN以执行准确的转换是一项复杂的任务,如本领域所公知的。
一旦训练了GCN,就使用另一组输入向量来测试和验证GCN转换是否可靠且准确。将同样具有已知输出值的另一组测试输入向量传递通过GCN 1,并且将实际Vo结果与已知Vo值进行比较。如果结果可接受,则认为GCN已经被训练。一旦被训练,GCN就可以用于预测未知查询向量的输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于GSI科技公司,未经GSI科技公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110275463.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:采用提拉法生长翠绿宝石晶体的方法
- 下一篇:一种用于机动车辆的装载地板装置