[发明专利]基于模拟训练的价格谈判策略模型学习方法在审
申请号: | 202010640550.5 | 申请日: | 2020-07-06 |
公开(公告)号: | CN111861648A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 俞扬;詹德川;周志华;姜允执 | 申请(专利权)人: | 南京大学 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06N3/08;G06K9/62 |
代理公司: | 南京乐羽知行专利代理事务所(普通合伙) 32326 | 代理人: | 李玉平 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 模拟 训练 价格 谈判 策略 模型 学习方法 | ||
1.一种基于模拟训练的价格谈判策略模型学习方法,其特征在于,通过在处理器上执行价格谈判对手模拟环境构造、卖家策略搜索和策略迁移三个模块进行实现;
价格谈判对手模拟环境构造模块中,从真实的在线交易平台中获取的买卖双方价格谈判过程交互数据,并对交互数据进行学习;学习过程中,基于卖方视角对交互数据作状态和动作数据分析,并将状态数据和动作数据分别编码为S和a,编码完成后,根据时间先后顺序,将交互数据排列为对应的状态-动作序列,即(S0,a0,S1,a1,…,ST)序列;利用机器学习方法,从前述状态-动作序列中学习得到两类对手策略模型,即一般买家策略模型和对抗式对手策略模型;将这两类对手策略模型混合,混合后的策略模型作为价格谈判对手模拟器,该模拟器输入当前的状态数据与卖方执行的动作数据,并输出动作数据执行完成后的下一个状态数据;
价格谈判对手模拟器构建完成后,卖家策略搜索模块利用策略搜索方法,与价格谈判对手模拟器交互,进行策略优化;
策略迁移模块需要收集部署卖家策略搜索模块提供的策略后,交易平台产生的新的交互数据,用于对价格谈判对手模拟器的进一步更新,并通过卖家策略搜索模块重新搜索策略。
2.根据权利要求1所述的基于模拟训练的价格谈判策略模型学习方法,其特征在于,价格谈判对手模拟器构建过程主要分为三步:
首先,构建一般买家策略模型,该模型用于模拟电商交易平台中的普通买家在价格谈判过程中的行为模式;
其次,构建对抗式对手策略模型,该模型用于模拟电商交易平台中的恶意用户在价格谈判过程中的行为模式;
最后,通过选择一个策略选择函数,将一般买家策略模型和对抗式对手策略模型进行混合得到一个混合策略模型,作为价格谈判对手模拟器使用。
3.根据权利要求1所述的基于模拟训练的价格谈判策略模型学习方法,其特征在于,构建一般买家策略模型时,采用神经网络作为一般买家策略模型,准备好状态-动作序列后,由于模型的输入为当前一步的状态和动作,输出为下一步状态,将从真实环境中收集到的交互数据、即状态-动作序列(S0,a0,S1,a1,…,ST)进行切分,划分出多个(St,at,St+1)的元组,其中St为策略模型当前一步的状态,at为当前一步的动作,St+1为策略模型输出的下一步状态;其中(St,at)作为一般买家策略模型的输入,St+1为输出;一般买家策略模型需要学习这个输入到输出的对应关系;使用监督学习方法对这个对应关系进行学习,具体方案如下:
首先,对真实环境中的在线交易平台的历史交互数据进行划分,得到由多个(St,at,St+1)元组组成的数据集,St+1为St的下一个状态;
然后,使用监督学习方法,将(St,at)作为样本,St+1作为预测目标,从划分后的数据集中训练出模拟器模型;
最后,训练后模拟器模型根据输入的状态-动作对(St,at),预测下一个状态St+1,作为价格谈判对手模拟器中的一般买家策略模型使用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010640550.5/1.html,转载请声明来源钻瓜专利网。