[发明专利]一种分子指纹生成方法在审
申请号: | 201911172854.7 | 申请日: | 2019-11-26 |
公开(公告)号: | CN112951337A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 王晓华;杨民民 | 申请(专利权)人: | 南京药石科技股份有限公司 |
主分类号: | G16C20/20 | 分类号: | G16C20/20;G16C20/40;G16C20/70 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 葛潇敏 |
地址: | 210032 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分子 指纹 生成 方法 | ||
本发明公开一种分子指纹生成方法,包括如下步骤:步骤1,建立训练集,该训练集为分子的smiles表示;步骤2,分别按照基团和字符对步骤1训练集中的各smiles表示进行分割,假设训练集中包含有N条smiles,则分割后共得到2*N条数据;然后使用TFIDF算法对得到的2*N条数据进行训练;步骤3,将经过TFIDF算法处理的smiles合成为向量,然后计算其中的原子位置信息;步骤4,在分子中叠加按基团和字符经计算后的分子向量表征,并叠加按原子计算的位置信息,以此来表示分子smiles。此种方法可实现“端到端”的分子指纹生成框架,无需手工提取特征,解决了分子指纹生成方法需要开发者对领域知识有较深了解的难题。
技术领域
本发明属于计算机辅助分子描述领域,涉及一种分子指纹生成方法,特别涉及一种对分子smiles格式的数据进行数字化处理生成分子指纹的方法。
背景技术
分子指纹(Molecular Fingerprint)将化学分子表示成“位串”(bit string),用于刻画化学分子的结构或功能相似性,由于其使用的简便性以及在子结构和相似性搜索中的高效性,在药物发现和虚拟筛选中得到了广泛应用。
目前,已经提出了很多的分子指纹生成方法,不同的方法反映了分子不同方面的信息。目前的分子指纹生成方法主要包括:基于关键子结构的分子指纹生成方法、基于路径的分子指纹生成方法、环形指纹生成方法、药效团指纹生成方法和混合指纹生成方法等。
基于关键子结构的分子指纹生成方法根据是否存在给定列表中的子结构将化学分子表示成位串,如MACCS、Pubchem等。基于路径的分子指纹生成方法根据分子的拓扑结构,顺着分子化学键的不同路径产生子结构,并哈希产生分子位串,其长度可变,可用于快速子结构搜索,如Daylight指纹和Openeye树形指纹。
环形指纹生成方法利用分子的拓扑结构,考虑每个原子的周边原子和键的信息生成位串,已被广泛应用于分子的整体结构相似性搜索,如Molprint2D、ECFP、FCFP等。
药效团指纹生成方法,它与基于关键子结构的指纹相似,但它除了考虑与药效相关的关键子结构,还考虑了这些子结构间的距离因素。混合指纹生成方法同时结合上述多种分子指纹信息,如UNITY2G同时考虑了关键子结构和子结构连接路径信息。
除了上述分子指纹生成方法,最近还有不少全新的方法涌现。例如,LINGO为基于文本的分子指纹工具,PLIF分子指纹生成方法主要考虑蛋白质一配体相互作用信息,包括氢键、离子键等,SIFt分子指纹生成方法主要考虑分子结构间的相互作用信息。
发明内容
本发明的目的,在于提供一种分子指纹生成方法,其可实现“端到端”的分子指纹生成框架,无需手工提取特征,解决了分子指纹生成方法需要开发者对领域知识有较深了解的难题。
为了达成上述目的,本发明的解决方案是:
一种分子指纹生成方法,包括如下步骤:
步骤1,建立训练集,该训练集为分子的smiles表示;
步骤2,分别按照基团和字符对步骤1训练集中的各smiles表示进行分割,假设训练集中包含有N条smiles,则分割后共得到2*N条数据;然后使用TFIDF算法对得到的2*N条数据进行训练;
步骤3,将经过TFIDF算法处理的smiles合成为向量,然后计算其中的原子位置信息;
步骤4,在分子中叠加按基团和字符经计算后的分子向量表征,并叠加按原子计算的位置信息,以此来表示分子smiles。
上述步骤1中,采用2500万条现实存在的smiles数据作为训练集。
上述步骤2中,采用维特比算法对smiles根据基团进行分割,得到基于基团的smiles分割结果如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京药石科技股份有限公司,未经南京药石科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911172854.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:实现网络投票的方法、装置和系统
- 下一篇:一种部署pod的方法及装置