[发明专利]一种参数调整方法和装置有效
申请号: | 201710050675.0 | 申请日: | 2017-01-23 |
公开(公告)号: | CN108345941B | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 冯银付 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 陈蕾 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 参数 调整 方法 装置 | ||
1.一种参数调整方法,其特征在于,待调整的参数为第一类参数和第二类参数,且第一类参数和第二类参数不同,所述方法包括:
在第一类时间周期,从动作集合中选择一个动作,并执行所述动作;
根据执行结果更新所述动作对应的第一类参数,并禁止调整指定对象的第二类参数;
在第二类时间周期,从所述动作集合中选择一个优选动作;
根据所述优选动作调整指定对象的第二类参数;
其中,所述第二类时间周期大于所述第一类时间周期;其中,所述第二类时间周期为N个第一类时间周期,N为大于等于2的正整数。
2.根据权利要求1所述的方法,其特征在于,所述动作集合中的动作对应有被选中概率,所述从动作集合中选择一个动作的过程,具体包括:
确定所述动作集合中的每个动作对应的被选中概率;
利用每个动作对应的被选中概率,从所述动作集合中选择一个动作。
3.根据权利要求2所述的方法,其特征在于,所述利用每个动作对应的被选中概率,从所述动作集合中选择一个动作的过程,具体包括:
随机生成一个位于指定区间的数值;
若所述数值不大于预设阈值,利用预设算法从所述动作集合中选择一个动作;其中,所述预设算法用于使被选中概率越大的动作,被选择的概率越大;
若所述数值大于预设阈值,从所述动作集合中选择被选中概率最大的动作。
4.根据权利要求1所述的方法,其特征在于,所述动作集合中的动作对应有调整偏移量,所述执行所述动作的过程,具体包括:
根据所述动作对应的调整偏移量对所述第一类时间周期的虚拟资源信息进行调整,所述虚拟资源信息只作用在所述第一类时间周期;
利用调整后的虚拟资源信息对所述指定对象进行业务处理;
获取所述指定对象在所述第一类时间周期的收益指标变化量。
5.根据权利要求1所述的方法,其特征在于,所述第一类参数具体包括被选中概率和收益指标,所述执行结果具体包括收益指标变化量;
所述根据执行结果更新所述动作对应的第一类参数的过程,具体包括:
利用所述收益指标变化量更新所述动作对应的收益指标;
若所述收益指标变化量表示正向收益,则增加所述动作对应的被选中概率;
若所述收益指标变化量表示反向收益,则减少所述动作对应的被选中概率。
6.根据权利要求5所述的方法,其特征在于,所述增加所述动作对应的被选中概率或者所述减少所述动作对应的被选中概率之后,所述方法还包括:
对所述动作集合中的每个动作对应的被选中概率进行归一化处理,以使所述动作集合中的每个动作对应的被选中概率之和为预设数值。
7.根据权利要求1所述的方法,其特征在于,所述优选动作对应有调整偏移量,所述根据所述优选动作调整指定对象的第二类参数的过程,具体包括:
根据所述优选动作对应的调整偏移量对所述指定对象的第二类参数进行调整,其中,所述第二类参数作用在所述指定对象的业务处理过程。
8.根据权利要求7所述的方法,其特征在于,所述动作集合中的动作对应有收益指标和被选中概率,所述优选动作是动作集合中的被选中概率最大的动作;所述根据所述优选动作调整指定对象的第二类参数的过程,具体包括:
利用所述动作集合中的每个动作对应的收益指标,统计累积收益;
若所述累积收益为正值,且大于正向累积阈值,则将所述指定对象的第二类参数调整为当前的第二类参数与所述优选动作对应的调整偏移量之和;
若所述累积收益为负值,且大于负向累积阈值,则将所述指定对象的第二类参数调整为当前的第二类参数与所述优选动作对应的调整偏移量之差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710050675.0/1.html,转载请声明来源钻瓜专利网。