[发明专利]一种参数调整方法和装置有效
申请号: | 201710050675.0 | 申请日: | 2017-01-23 |
公开(公告)号: | CN108345941B | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 冯银付 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 陈蕾 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 参数 调整 方法 装置 | ||
本申请提供一种参数调整方法和装置,该方法包括:在第一类时间周期,从动作集合中选择一个动作,并执行所述动作;根据执行结果更新所述动作对应的第一类参数;在第二类时间周期,从所述动作集合中选择一个优选动作;根据所述优选动作调整指定对象的第二类参数;其中,所述第二类时间周期大于所述第一类时间周期。通过本申请的技术方案,可以避免第二类参数的反复调整,使得第二类参数的波动保持稳定,减少对用户的影响,减轻服务端的工作量,不会增加服务端的负担。可以最优化地实现参数调整,选择出更加精确的第二类参数。可以在线实时动态调整第二类参数,不用人工配置。
技术领域
本申请涉及互联网技术领域,尤其是一种参数调整方法和装置。
背景技术
在机器学习领域,MABL(Multi-Armed Bandit Learning,多臂老虎机学习)算法是一类特殊的增强学习算法,这类算法包含两个部分:探索未知(Explore)、利用已知经验(Exploit),因此,这类算法也称为EE(Explore-Exploit)算法。在EE算法中,一个行为动作选项是一个Arm(臂),而任意一个Arm被选择执行后带来的结果影响,称为Reward(收益)。在EE算法中,Explore阶段的核心问题是如何去选择探索一个未知或新的Arm,Exploit阶段的核心问题是如何基于历史已知信息计算评价出当前最优的Arm,作为本阶段的执行Arm。
发明内容
本申请提供一种参数调整方法,所述方法包括:
在第一类时间周期,从动作集合中选择一个动作,并执行所述动作;
根据执行结果更新所述动作对应的第一类参数;
在第二类时间周期,从所述动作集合中选择一个优选动作;
根据所述优选动作调整指定对象的第二类参数;
其中,所述第二类时间周期大于所述第一类时间周期。
本申请提供一种参数调整装置,所述装置包括:
第一选择模块,用于在第一类时间周期,从动作集合中选择一个动作;
执行模块,用于执行所述动作;
更新模块,用于根据执行结果更新所述动作对应的第一类参数;
第二选择模块,用于在第二类时间周期,从动作集合中选择一个优选动作;
调整模块,用于根据所述优选动作调整指定对象的第二类参数;
其中,所述第二类时间周期大于所述第一类时间周期。
基于上述技术方案,本申请实施例中,通过配置第一类时间周期和第二类时间周期(第二类时间周期可以大于第一类时间周期),在第一类时间周期内,可以只更新第一类参数,而不调整指定对象的第二类参数,在第二类时间周期内,才调整指定对象的第二类参数。这样可以避免第二类参数的反复调整,使得第二类参数的波动保持稳定,减少对用户的影响,提高服务端的运营效率和整体收益,减轻服务端的工作量,不会增加服务端的负担。而且,可以提供第二类参数的动态调整方式,可以最优化地实现参数调整,选择出更加精确的第二类参数。而且,可以在线实时动态调整第二类参数,不用人工配置第二类参数,能够减少人工劳动量,而且能够快速地响应线上数据的变化。
附图说明
为了更加清楚地说明本申请实施例或者现有技术中的技术方案,下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本申请实施例的这些附图获得其它的附图。
图1是本申请一种实施方式中的应用场景示意图;
图2是本申请一种实施方式中的参数调整方法的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710050675.0/2.html,转载请声明来源钻瓜专利网。