[发明专利]系综模型的创建和选择在审
申请号: | 201980033303.4 | 申请日: | 2019-03-29 |
公开(公告)号: | CN112189235A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | D.普拉姆利;M.塞尔伍德;M.菲斯卡托;A.C.沃彻 | 申请(专利权)人: | 伯耐沃伦人工智能科技有限公司 |
主分类号: | G16C20/70 | 分类号: | G16C20/70;G16B40/00;G16C20/30;G16C20/50 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张贵东 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 创建 选择 | ||
1.一种生成系综模型的计算机实现的方法,所述方法包括:
基于与化合物相关联的多个数据集来训练多个模型;
计算多个训练模型中的每一个的模型性能统计;
基于计算的模型性能统计从训练模型中选择并存储成组的最优训练模型;和
形成一个或多个系综模型,每个系综模型包括来自所述成组的最优训练模型的多个模型。
2.根据权利要求1所述的计算机实现的方法,其中计算模型性能统计还包括交叉验证所述多个模型中的每一个。
3.根据权利要求1或2所述的计算机实现的方法,其中为每个训练模型计算模型性能统计包括基于以下组中的一项或多项为每个训练模型计算至少一个或多个模型性能统计:
训练模型的阳性预测值或精度;
训练模型的灵敏度、特异性、真实预测率或召回;
与所述训练模型相关联的接收器操作特性ROC图;
与所述训练模型相关联的ROC曲线下面积;
与所述训练模型相关联的精度ROC曲线下面积;
与所述训练模型相关联的精度和召回ROC曲线下面积;
F1分数;
r平方;
均方根误差;
均方误差;
中值绝对误差;
平均绝对误差;
与训练模型的精度和/或召回相关联的任何其他功能;和
用于基于与每一模型相关联的模型类型或机器学习技术来评估训练模型中的每一个的任何其他模型性能统计。
4.根据任一项前述权利要求所述的计算机实现的方法,其中所述方法还包括:从与化合物相关联的成组的标记数据集生成多个数据集。
5.根据权利要求4所述的计算机实现的方法,其中,生成所述多个数据集还包括基于多个化合物描述符从所述成组的标记数据集生成数据集组,其中每个数据集组对应于不同的化合物描述符。
6.根据权利要求5所述的计算机实现的方法,其中化合物描述符包括基于以下中的至少一个或多个的化合物描述符:
国际化学标识InChI;
InChIKey;
MolFile格式;
二维物理化学描述符;
三维物理化学描述符;
XYZ文件格式;
扩展连接性指纹ECFP;
结构数据格式;
所述化合物的结构式或表示;
简化的分子输入行敲入说明SMILES、字符串或格式;
SMILES任意目标规范或格式;
化学标记语言格式;和
用于描述、表示和/或编码化合物的分子信息和/或结构的任何其他化学描述符或化学描述符格式。
7.根据权利要求4至6中任一项所述的计算机实现的方法,其中:
生成所述多个数据集还包括针对所述多个数据集中的每个数据集,通过将所述每个数据集分割成多个部分来生成成组的数据集折叠;和
对于多个模型和多个数据集,执行以下步骤:
基于与每个数据集相对应的成组的数据集折叠训练每个模型;
基于与每个数据集相对应的成组的数据集折叠的每个折叠计算每个训练模型的模型性能统计;和
基于计算的模型性能统计将表示训练模型的数据存储在成组的最优模型中。
8.根据权利要求7所述的计算机实现的方法,其中存储表示所述训练模型的数据还包括通过将所述计算的模型统计与关联于所述模型统计的一个或多个性能阈值进行比较来将表示所述训练模型的数据存储在所述成组的最优模型中。
9.根据权利要求7或8所述的计算机实现的方法,其中存储代表所述训练模型的数据还包括通过将计算的模型统计与先前存储的模型的计算的模型统计进行比较来将代表所述训练模型的数据存储在所述成组的最优模型中。
10.根据权利要求9所述的计算机实现的方法,还包括基于相同类型的模型的计算的模型统计从所述成组的最优模型中删除先前存储的模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于伯耐沃伦人工智能科技有限公司,未经伯耐沃伦人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980033303.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于设置电剂量的装置和方法
- 下一篇:用于切割工件的方法和装置