[发明专利]基于机器学习构建模拟环境的智能营销策略的训练方法有效
申请号: | 202010160913.5 | 申请日: | 2020-03-10 |
公开(公告)号: | CN111339675B | 公开(公告)日: | 2020-12-01 |
发明(设计)人: | 俞扬;秦熔均;姜允执;池飞 | 申请(专利权)人: | 南栖仙策(南京)科技有限公司 |
主分类号: | G06F30/20 | 分类号: | G06F30/20;G06Q30/02;G06N20/00;G06N3/08 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210038 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 构建 模拟 环境 智能 营销 策略 训练 方法 | ||
1.一种基于机器学习构建模拟环境的智能营销策略的训练方法,其特征在于:包括营销环境模拟器构造、策略搜索和策略迁移优化三个模块的实现;
营销环境模拟器构造模块利用真实营销环境中的历史交互数据,首先以投放者视角,对交互数据作状态和动作编码为S和a,其中状态S包含平台反馈的统计信息,动作a为投放行为,并按照时间先后顺序,得到对应的状态-动作序列,即(S0,a0,S1,a1,…,ST)序列;营销环境模拟器利用机器学习方法,从编码并划分完成的状态-动作序列中学得营销环境模型,作为营销环境模拟器,该模型输入当前的“状态”与执行的“动作”,输出动作执行完成后的下一个“状态”;
在构造营销环境模拟器时,使用监督学习算法获得营销环境模拟器流程为:
首先,对真实营销环境中的历史营销的交互数据进行划分,得到多个(St,at,St+1)元组,St+1为St的下一个状态;
然后,使用监督学习方法,将(St,at)作为样本,St+1作为预测目标,从划分后的数据集中训练出模拟器模型;
最后,训练后模型根据输入的状态-动作对,预测下一个状态,作为营销环境模拟器使用;
营销环境模拟器构造完成后,策略搜索模块利用策略搜索方法,策略优化目标为最大化下载量与实际花费的比值,并根据实际场景,建立约束,使策略和营销环境模拟器交互,进行策略优化;为了增强策略的鲁棒性,在训练时进行噪声扰动;
将搜索得到的营销策略部署后,策略迁移优化模块需要收集部署后产生的新的交互数据,用于对营销环境模拟器的进一步更新,并重新搜索策略,以提高各个模型的准确度和适应性。
2.如权利要求1所述的基于机器学习构建模拟环境的智能营销策略的训练方法,其特征在于:采用对抗学习技术缓解监督学习带来的复合误差的影响,
具体实施过程如下:
首先,建立若干神经网络作为投放策略模型和营销环境模型;
其次,建立一个神经网络作为判别器,用于判别某条生成(S0,a0,S1,a1,…,Sn)轨迹序列的可信度;
然后,通过投放策略模型和营销环境模型进行投放者和营销环境交互,生成一批(S0,a0,S1,a1,…,Sn)轨迹序列,用生成的(S0,a0,S1,a1,…,Sn)轨迹序列和真实数据中的(S0,a0,S1,a1,…,Sn)轨迹序列更新判别器,将真实轨迹序列数据集记为D,训练过程中的生成的轨迹序列数据集记为D’,更新目标如下:
其中f为判别器,f(τ),f(τ′)分别表示判别器在单条真实轨迹和生成轨迹上输出的可信度;
再次,用更新后的判别器给生成的(S0,a0,S1,a1,…,Sn)轨迹序列打分,即输出可信度,作为该条轨迹的期望奖励,用强化学习算法更新营销投放策略和营销环境模型;
然后,重复以上两步,直到达到最大循环次数;
最后,将通过以上过程训练完成后的营销环境模型作为营销环境模拟器使用。
3.如权利要求1所述的基于机器学习构建模拟环境的智能营销策略的训练方法,其特征在于:完成营销模拟器构建后,使用演化学习算法进行策略搜索,具体步骤为:
(1)建立多个神经网络作为投放策略模型种群;
(2)选择一个投放策略和营销环境模拟器交互,即先由营销环境模拟器采样或生成一个初始状态,投放策略以该初始状态作为输入,输出投放动作;营销环境模拟器输入当前的状态和投放动作,返回下一个状态,投放策略再根据当前状态,输出投放动作,直到达到外部终止条件;重复M次上述交互过程,得到M条轨迹,每条轨迹为(S0,a0,S1,a1,…,Sn)序列,并根据状态计算出奖励信息,并在每个观测状态上加高斯噪声再返回给投放策略作为输入;
(3)为(2)中每条轨迹计算该条轨迹的期望奖励,并计算所有的期望奖励的平均值,作为当前选中的投放策略的适应度;
(4)重复(2)(3),直到种群里所有策略模型都有适应度;
(5)使用演化算法对策略模型进行扰动,生成新的种群,回到(2),直到达到最大迭代次数;
(6)使用当前种群中适应度最高的策略模型作为策略搜索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南栖仙策(南京)科技有限公司,未经南栖仙策(南京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010160913.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防水防误拔的医疗用插座及插头
- 下一篇:一种锂硫电池功能性隔层的制备方法