[发明专利]分子指纹的提取及基于其的相关度的计算的方法及装置在审
申请号: | 202010988652.6 | 申请日: | 2020-09-18 |
公开(公告)号: | CN112201314A | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 李相彬;周杰龙 | 申请(专利权)人: | 北京望石智慧科技有限公司 |
主分类号: | G16C20/50 | 分类号: | G16C20/50 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 李博洋 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分子 指纹 提取 基于 相关 计算 方法 装置 | ||
1.一种分子指纹的提取方法,其特征在于,包括:
获取待测分子的多个字符;
根据多个字符以及预设字符字典,分别确定各所述字符对应的特征向量;
根据所述特征向量及分子指纹提取模型提取所述待测分子的分子指纹。
2.根据权利要求1所述的分子指纹的提取方法,其特征在于,根据所述特征向量及分子指纹提取模型提取所述待测分子的分子指纹,包括:
根据初始字符的特征向量以及预设输入状态,生成所述初始字符的隐状态以及所述初始字符对应的初始编码长短期记忆链单元的输出状态;
根据第n-1个字符对应的特征向量以及第n-2个字符对应的编码长短期记忆链单元的输出状态,生成所述第n-1个字符的隐状态以及第n-1个字符对应的第n-1个编码长短期记忆链单元的输出状态,n≥3;
根据第n个字符对应的特征向量以及第n-1个字符对应的编码长短期记忆链单元的输出状态,生成所述第n个字符的隐状态以及所述待测分子的分子指纹。
3.根据权利要求1所述的分子指纹的提取方法,其特征在于,构建所述分子指纹提取模型的步骤,包括:
获取目标分子集合,将所述目标分子集合划分为训练集及测试集,所述训练集包括多个训练子集;
获取所述训练子集中的多个样本分子的多个样本字符;
根据多个样本字符以及预设字符字典,分别确定各样本字符对应的样本特征向量;
根据初始样本字符的样本特征向量以及预设输入状态,生成所述初始样本字符的隐状态以及所述初始样本字符对应的初始编码长短期记忆链单元的输出状态;
根据第n-1个样本字符对应的样本特征向量以及第n-2个样本字符对应的编码长短期记忆链单元的输出状态,生成所述第n-1个样本字符的隐状态以及第n-1个样本字符对应的第n-1个编码长短期记忆链单元的输出状态,n≥3;
根据第n个样本字符对应的样本特征向量以及第n-1个样本字符对应的编码长短期记忆链单元的输出状态,生成所述第n个样本字符的隐状态以及所述样本分子的分子指纹;
根据所述样本分子的分子指纹以及预设开始标志符,得到初始解码长短期记忆链单元的输出状态以及初始隐状态;根据所述初始隐状态以及编码隐状态集合,生成初始采样字符概率矩阵;根据所述初始采样字符概率矩阵,筛选生成初始采样字符;所述编码隐状态集合用于表征所述初始样本字符的隐状态,直至所述第n个样本字符的隐状态的集合;
根据第n-2个采样字符对应的采样特征向量以及第n-2个解码长短期记忆链单元的输出状态,得到第n-1个解码长短期记忆链单元的输出状态以及第n-1个隐状态;根据所述第n-1个隐状态以及编码隐状态集合,生成第n-1个采样字符概率矩阵;根据所述第n-1个采样字符概率矩阵,筛选生成第n-1个采样字符,n≥3;
根据第n-1个样本字符对应的样本特征向量以及第n-1个样本字符对应的解码长短期记忆链单元的输出状态,生成所述第n个样本字符的隐状态,根据所述第n个隐状态以及编码隐状态集合,生成第n个采样字符概率矩阵;根据所述第n个采样字符概率矩阵,筛选生成第n个采样字符;根据多个采样字符,生成样本复原分子;
根据所述样本分子及样本复原分子构建所述分子指纹提取模型。
4.根据权利要求3所述的方法,其特征在于,在获取目标分子集合的步骤之前,还包括:
获取预设数据库中的分子集合;
根据预设条件清洗所述分子集合,生成清洗后的分子集合;
将所述清洗后的分子集合转换为预设字符格式,生成目标分子集合。
5.根据权利要求4所述的方法,其特征在于,通过下述公式,计算第n个采样字符概率矩阵:
其中,weight表示所述编码隐状态集合的权重,表示第t个隐状态,表示第i个样本字符的隐状态,linear表示线性函数,concat表示拼接函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京望石智慧科技有限公司,未经北京望石智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010988652.6/1.html,转载请声明来源钻瓜专利网。