[发明专利]将未经监督参数学习用于离群值检测以识别生产用生物体在审
申请号: | 201880077392.8 | 申请日: | 2018-11-30 |
公开(公告)号: | CN111937001A | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | A·泰勒 | 申请(专利权)人: | 齐默尔根公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 北京律盟知识产权代理有限责任公司 11287 | 代理人: | 叶明明 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 未经 监督 参数 学习 用于 离群 检测 识别 生产 生物体 | ||
本发明提供用于识别生产用生物体的系统、方法及计算机可读媒体。所述识别基于确定用于从生物体性能度量的数据集识别离群值(例如,离群值孔、菌株、固持生物体的板)的一或多个离群值检测参数。预测引擎可基于第一组离群值检测参数(例如,离群值检测阈值)识别一或多个候选离群值,并确定表示候选离群值属于离群值分类的可能性的概率度量。基于那些度量,在预测生物体性能中出于选择生产用生物体的目的,可将所述离群值中的一些离群值排除在考虑范围外。
相关申请案的交叉引用
本申请案主张于2017年12月1日提出申请的美国临时申请案第62/593,757号的优先权的权益,所述临时申请案特此以全文引用的方式并入。
技术领域
本发明大体来说涉及代谢及基因组工程的领域,且更特定来说涉及用以生产所关注产品的高通量(HTP)生物体(例如微生物菌株)基因修饰的领域。
背景技术
在背景章节中论述的标的物不应仅因为其在背景章节中提及而被假定为背景技术。类似地,在背景章节中提及或与背景章节的标的物相关联的问题不应假定为先前已在背景技术中认识到。背景章节中的标的物仅表示不同方法,其本身也可对应于所主张技术的实施方案。
基因地优化生物体以展现所期望表型是众所周知的问题。一个问题是,可对生物体做出的所有可能修饰中的哪一个应尝试最大化所期望化合物的输出?自动化实验室设备使得能够在短时间表内实施及评定数百或数千种微生物的基因修饰。基于对此些修饰的历史评定,可构建预测模型来预测给定基因修饰将产生所期望表型性能的可能性。因此,使用预测模型使得设计者能够更有效地选择将在基因制造系统中物理地进行以实现所关注表型的基因修饰。
在基因组工程中使用的预测模型(例如,线性回归)导致拟合线的产生,所述拟合线估计独立变量到例如微生物性能(例如,效价、生物量)的所预测变量的映射。然而,通常,一些菌株与其余者表现得极其不同,且其所观察性能可与其它更靠近拟合线的菌株在空间上隔离。此些离群值菌株影响模型的拟合且可削弱所有其它菌株的预测力,同时仍然不良地预测其自身。一种优化是移除离群值菌株以改进模型的总体预测力。
文献中广泛地论述离群值及异常检测,但出于此目的继续努力寻找更好的模型。这些模型中的许多模型(均广为人知)具有必须从数据学习使得算法起到良好作用的参数。此在文献中通常称为“参数调谐”。参数调谐/学习是机器学习中的标准步骤。这些参数取决于正在分析的特定数据而变化。举例来说,期望参数取决于宿主生物体,微生物在其中生长的媒介、过程中使用的机器等。如此,将期望每次参与一个新项目时均使用数据来学习这些参数并遍及程序的演变重新访问这些参数。
当数据经监督时,存在用于参数学习的完善技术,此意指存在已知真实值。在此上下文中,将知晓数据中哪些值是离群值且哪些值不是。作为类比,如果正尝试在将一群组的人分类为男性及女性的模型中学习参数,那么可能具有其中确切地知晓哪些人是男性且哪些人是女性的数据集。接着可使用那个信息来构建模型,所述模型将具有输入数据但尚不知晓其性别的人的性别分类。涉及离群值检测的许多项目不具有例如具有经客观标注点的数据集的任何真实值。
所有离群值检测算法通常也是如此,但只有最近此问题才开始在文献中出现有效论文。对此,一个原因可为使用其中人类主观地(或在异常情况中,其可为更客观)标注数据使得可使用易于理解的监督技术的“半监督”数据。然而,由于例如大量数据及与高通量基因组修饰关连的有限资源的挑战,每次算法可能需要更新时或从事用于优化例如合格率、生物量的表型性能以生产所关注产品(基于预测模型)的新项目时都需要重新校准/重新训练,因此在许多情况下此方法可能不是一种选择。此外,普遍认识到,与稳健统计模型相比,半监督方法依赖于关于什么构成离群值的有偏人类决策。
因此,期望在不具有识别哪些数据点是真正的离群值的真实值的情况下确定用于稳健统计模型的参数。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐默尔根公司,未经齐默尔根公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880077392.8/2.html,转载请声明来源钻瓜专利网。