[发明专利]对机器学习工作负荷的数据处理优化进行流水线化在审
申请号: | 202180039049.6 | 申请日: | 2021-05-14 |
公开(公告)号: | CN115803757A | 公开(公告)日: | 2023-03-14 |
发明(设计)人: | 张琦;P·诺瓦特尼;闵红;R·纳伊尔;S·拉姆齐;余磊;仲池卓也;川人基弘 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06N5/022 | 分类号: | G06N5/022;G06N20/00 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 邹丹 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器 学习 工作 负荷 数据处理 优化 进行 流水线 | ||
提供了用于改良数据流水线的技术。接收序列化对象的原始文件,并且基于所述原始文件来识别包括多个变换的原始流水线。确定该多个变换中的第一变换的第一计算成本。使用预定义优化来修改第一变换,并且确定经修改的第一变换的第二成本。在确定第二成本低于第一成本时,将原始流水线中的第一变换替换为经优化的第一变换。
背景技术
本公开涉及机器学习优化,并且更具体地涉及优化机器学习流水线的改进技术。
机器学习(ML)系统通常依赖于大量数据来有效且准确地操作。例如,通常需要大量数据来充分地训练系统。类似地,在使用期间,经常期望模型处理大量数据以提供期望的推断、预测和分类。此外,在重新训练或改良过程期间,通常使用先前数据(其可包括训练数据和部署数据)来重新配置模型,这可能需要评估大量记录。
在现有系统中,数据通常经过预处理系统,以便使其准备好用作实际模型的输入。预处理系统可以涉及对原始输入数据的一个或多个评估和变换。该预处理可以导致显著的计算成本,包括计算时间(例如,处理器上的循环)和存储器要求。事实上,在许多系统中,预处理输入数据涉及比用ML模型实际评估数据更多的计算成本。出于这些和其他原因,重要的是预处理系统高效地操作,以便减少系统中的花费和等待时间。
例如,在依赖于实时推断(例如,在输入数据被接收为流的情况下)的部署中,输入数据通常是高吞吐量,并且需要快速评估。如果预处理系统不是有效的,则它充当过程中的重要瓶颈。类似地,在批量推断系统中,通常在单个时间评估大量记录。如果预处理系统效率低下,那么每一批次因此需要额外且大量的资源来摄取。在该预处理系统中的优化对于模型的整体性能是关键的。然而,现有系统依赖于大量的人工努力来识别和实现系统中的优化。这再次引入额外的成本和延迟。进一步,这些人工方法通常固有地是主观的,并且不提供智能的和系统性的技术来改良系统。
发明内容
根据本公开的一个实施例,提供了一种方法。该方法包括:接收序列化对象的原始文件;基于原始文件识别包括多个变换的原始流水线;确定多个变换中的第一变换的第一计算成本;使用预定义优化来修改第一变换;确定经修改的第一变换的第二成本;以及在确定第二成本低于第一成本时,在原始流水线中以经优化的第一变换来替换第一变换。有利地,这样的方法能够在处理流水线时实现显著的数据驱动的改进。
根据本公开的一些实施例,以上实施例的任何组合可进一步包含以下技术:其中识别原始流水线包括生成数据处理图,其中数据处理图中的每个相应顶点表示多个变换中的相应变换,并且其中数据处理图中的每个相应边指定原始流水线中的数据流。这样的实施例是有利的,至少因为它能够实现流水线的粒度评估和理解,以便动态地分析每个元素并识别潜在的改进。
根据本公开的一些实施例,以上实施例的任意组合可以进一步包括以下技术,其中生成数据处理图包括:基于原始文件实例化原始流水线;对样本数据执行原始流水线;基于执行来识别多个变换;以及基于执行来识别多个变换的序列。有利地,这样的实施例允许系统识别流水线中涉及的特定变换和数据流,同时允许系统监控使用中的原始流水线。这降低了复杂性并且加速了改进。
根据本公开的一些实施例,以上实施例的任何组合还可包括以下技术,其中生成数据处理图包括评估原始文件以识别原始流水线中的多个变换和数据流,而不实例化原始流水线。这样的实施例可以是有利的,因为它允许系统通过直接查看文件来开始流水线的评估,而不需要资源使用来实例化流水线或处理实际数据。
根据本公开的一些实施例,上述实施例的任意组合还可以包括以下技术,其中确定第一变换的第一计算成本包括:对样本数据执行第一变换;以及评估执行以确定执行第一变换的等待时间。有利地,这允许系统以真实的方式动态地识别与处理数据相关联的成本,这更好地反映在运行时预期的内容。
根据本公开的一些实施方式,上述实施方式的任何组合可进一步包括以下技术,其中预定义优化包括在第一变换中增加的并行化。这样的实施例使得能够显著改进非改良的变换,因为并行性常常在减少处理延迟方面是有用的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180039049.6/2.html,转载请声明来源钻瓜专利网。