[发明专利]一种样本生成方法、装置、服务器及存储介质在审
申请号: | 202010717056.4 | 申请日: | 2020-07-23 |
公开(公告)号: | CN113298106A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 罗强;周国睿;牟娜;晁志军;何海洋;王曙光;朱小强;依鹏涛;籍鑫璞;王维昭;马驰;向杭;盖坤;张国旺;李帅;宋钺 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 上海知锦知识产权代理事务所(特殊普通合伙) 31327 | 代理人: | 汤陈龙 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 样本 生成 方法 装置 服务器 存储 介质 | ||
本申请实施例提供一种样本生成方法、装置、服务器及存储介质,其中方法包括:基于历史时间段的业务日志,获取业务数据,所述业务数据包括多条样本骨架以及特征表,所述特征表记录所述历史时间段内对象与业务关联的样本特征;根据样本骨架包括的特征标识,从所述特征表中查询样本骨架对应的样本特征;根据样本骨架与样本骨架对应的样本特征,得到原始样本;基于原始样本和原始样本中的业务场景标识,获取用于训练的样本数据。本申请实施例可提升样本生成方案在不同业务之间的复用性。
技术领域
本申请实施例涉及数据处理技术领域,具体涉及一种样本生成方法、装置、服务器及存储介质。
背景技术
随着机器学习,特别是深度学习的发展,机器学习模型在众多的业务得到了广泛的应用。样本作为训练和更新机器学习模型的输入数据,优化样本生成方案,一直是本领域技术人员研究的热点。
目前的样本生成方案主要基于业务的特点设计,导致样本生成方案难以在不同业务之间的复用,往往需要针对新业务重新设计样本生成方案,因此如何提供一种新型的样本生成方案,以提升样本生成方案在不同业务之间的复用性,成为了本领域技术人员亟需解决的技术问题。
发明内容
有鉴于此,本申请实施例提供一种样本生成方法、装置、服务器及存储介质,以提升样本生成方案在不同业务之间的复用性。
为实现上述目的,本申请实施例提供如下技术方案:
一种样本生成方法,包括:
基于历史时间段的业务日志,获取业务数据,所述业务数据包括多条样本骨架以及特征表,所述特征表记录所述历史时间段内对象与业务关联的样本特征;
根据样本骨架包括的特征标识,从所述特征表中查询样本骨架对应的样本特征;
根据样本骨架与样本骨架对应的样本特征,得到原始样本;
基于原始样本和原始样本中的业务场景标识,获取用于训练的样本数据。
本申请实施例还提供一种样本生成装置,包括:
业务数据获取模块,用于基于历史时间段的业务日志,获取业务数据,所述业务数据包括多条样本骨架以及特征表,所述特征表记录所述历史时间段内对象与业务关联的样本特征;
样本特征查询模块,用于根据样本骨架包括的特征标识,从所述特征表中查询样本骨架对应的样本特征;
原始样本得到模块,用于根据样本骨架与样本骨架对应的样本特征,得到原始样本;
样本数据获取模块,用于基于原始样本和原始样本中的业务场景标识,获取用于训练的样本数据。
本申请实施例还提供一种样本生成装置,包括:
特征生成器,用于基于历史时间段的业务日志,获取业务数据,所述业务数据包括多条样本骨架以及特征表,所述特征表记录所述历史时间段内对象与业务关联的样本特征;根据样本骨架包括的特征标识,从所述特征表中查询样本骨架对应的样本特征;根据样本骨架与样本骨架对应的样本特征,得到原始样本;
样本生成器,用于基于原始样本和原始样本中的业务场景标识,获取用于训练的样本数据。
本申请实施例还提供一种服务器,包括:至少一个存储器和至少一个处理器;所述存储器存储一条或多条计算机可执行指令,所述处理器调用所述一条或多条计算机可执行指令,以执行如上述所述的样本生成方法。
本申请实施例还提供一种存储介质,所述存储介质存储一条或多条计算机可执行指令,所述一条或多条计算机可执行指令用于执行如上述所述的样本生成方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010717056.4/2.html,转载请声明来源钻瓜专利网。