[发明专利]用于主动学习的候选列表选择模型在审
申请号: | 201980033302.X | 申请日: | 2019-03-29 |
公开(公告)号: | CN112136179A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | D.普拉姆利;M.H.S.塞格勒 | 申请(专利权)人: | 伯耐沃伦人工智能科技有限公司 |
主分类号: | G16C20/30 | 分类号: | G16C20/30;G16C20/70 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张贵东 |
地址: | 英国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 主动 学习 候选 列表 选择 模型 | ||
提供了用于基于机器学习(ML)技术生成选择模型的方法和设备,该选择模型用于选择需要特定属性相关验证的化合物候选列表。用于生成选择模型的迭代过程或反馈循环可以包括:接收从属性模型输出的预测结果列表,用于预测多个化合物是否与特定属性相关联和属性模型分数;基于属性模型分数和/或预测结果列表再训练选择模型;使用再训练的选择模型从与预测结果列表相关联的多个化合物中选择化合物候选列表;发送所选的化合物候选列表以进行特定属性相关验证,其中使用另一种ML技术来基于验证更新属性模型;重复选择模型的接收和再训练,直到确定选择模型已经被有效训练。
技术领域
本申请涉及选择用于主动学习和模型验证的化合物候选列表的设备、系统和方法。
背景技术
信息学是在一个或多个学术和/或科学领域应用计算机与信息技术和资源来解释数据。化学信息学和生物信息学包括应用计算机与信息技术和资源来解释化学和/或生物数据。这可以包括解决和/或模拟化学和/或生物学领域中的过程和/或问题。例如,这些计算机与信息技术和资源可以将数据转换成信息,再将信息转换成知识,用于在药物鉴定、发现和优化领域中(仅作为示例但不限于此)快速创建化合物和/或做出改进决策。
机器学习技术是一种计算方法,可用于设计复杂的分析模型和算法,以解决复杂的问题,例如创建和预测化合物是否具有一种或多种特征和/或属性。虽然有很多ML技术可用于或被选择用于预测化合物是否具有特定属性或特征,但是通常缺乏训练数据来适当地训练ML技术以生成适当训练过的ML模型来预测化合物是否具有特定属性,这种模型在本文中被称为属性模型。如果使用ML技术基于不充分标记的训练数据生成属性模型,则所得的属性模型对多数化合物来说,都可能无法可靠地预测其是否具有特定属性。
生成标记的训练数据集用于训练ML技术以生成准确可靠的属性模型,从而预测化合物是否具有特定属性,这种做法昂贵、耗时且容易出现人为错误。随着需要预测的属性/特征的数量的增加,需要使用多个属性模型预测化合物是否具有多个属性和/或特征中的一个或多个,该任务的复杂性呈指数级增长。需要改进标记的训练数据集的生成,并且仅选择那些与特定属性具有未知关联的化合物以最大化属性模型的质量,同时最小化所选化合物的数量。这将进一步改进用于生成准确可靠的属性模型的训练ML技术,所述属性模型用于预测化合物是否具有一种或多种特定属性,并有助于研究人员、数据科学家、工程师和分析师在药物鉴定、发现和优化领域取得快速进展。
下面描述的实施例不限于解决上述已知方法的任何或所有缺点的实施方式。
发明内容
本发明内容是为了以简化的形式介绍将在下面的具体实施方式中进一步描述的一些概念。本发明内容不旨在说明所要求保护的主题的关键特征或必要特征,也不旨在用于确定所要求保护的主题的范围;有助于本发明的工作和/或用于实现基本相似的技术效果的变型和替代特征应该被认为落入这里公开的本发明的范围内。
本公开提供了用于选择模型的方法和设备,该选择模型从用于预测化合物是否表现出或具有特定属性的ML模型(例如,属性模型)输出的预测结果列表中预测化合物候选列表的最佳选择。通过基于标记的训练数据集训练ML技术来生成ML模型,所述标记的训练数据集与表现出特定属性/与特定属性相关联的化合物相关联。选择模型可以基于用于训练另一种ML技术的迭代和半自动/自动方法来生成,所述另一种ML技术例如但不限于从预测结果列表中选择最佳化合物候选列表的强化学习(RL)技术。训练RL技术以生成选择模型,该选择模型从ML模型(例如属性模型)的预测结果列表中预测用于验证的化合物候选列表的最佳选择,其中来自化合物候选列表的验证结果可用于增强ML模型。所选候选列表的验证可以包括验证所选候选列表中的每种化合物与特定属性的关联。验证结果可以包括与特定属性相关的每种化合物的指示;这些可用于生成进一步标记的训练数据集,以更新或增强ML模型。因此,选择模型有助于提升ML技术的训练,以生成准确和可靠的属性模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于伯耐沃伦人工智能科技有限公司,未经伯耐沃伦人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980033302.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于肺表面活性物质的抗癌药物
- 下一篇:使用强化学习的分子设计