[发明专利]一种众智网络智能数体需求匹配策略优化方法及系统在审
申请号: | 201910424243.0 | 申请日: | 2019-05-21 |
公开(公告)号: | CN110148039A | 公开(公告)日: | 2019-08-20 |
发明(设计)人: | 崔立真;曲喆;李庆忠;鹿旭东;郭伟 | 申请(专利权)人: | 山东大学 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 董雪 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能主体 智能 排序策略 匹配策略 网络智能 信息空间 行为策略 搜索关键词 基本信息 奖赏函数 交易服务 历史数据 历史行为 评估指标 强化学习 行为模式 需求供应 需求意图 总成交量 同步的 构建 排序 匹配 优化 投放 返回 学习 探索 网络 | ||
1.一种众智网络智能数体需求匹配策略优化方法,其特征在于,包括:
收集智能主体的基本信息集,构建信息空间智能主体所对应的智能数体分布;
根据收集到的智能主体与众智网络进行供需匹配的历史数据,通过智能主体的历史行为,学习出其内在的奖赏函数;利用强化学习的方法,学习出智能主体的行为策略;
对智能数体实施投放不同的排序策略,根据智能数体的搜索关键词和智能数体的基本信息返回一个需求供应项列表,设置总成交量作为评估指标,确定每项排序策略的优劣。
2.如权利要求1所述的一种众智网络智能数体需求匹配策略优化方法,其特征在于,所述收集智能主体的基本信息集,具体为:
所述基本信息集划分为描述信息DM和行为信息DB;
将智能主体的基本信息集对应到信息空间,构成智能数体的特征向量<DM,DB>;
每个智能数体的特征向量与物理空间的智能主体一一对应,生成智能数体分布。
3.如权利要求1所述的一种众智网络智能数体需求匹配策略优化方法,其特征在于,
根据生成的智能数体分布以及智能主体与众智网络进行供需匹配的历史数据,使用M=<S,A,t,R,P>代表智能数体供需匹配的马尔科夫过程;其中,S为状态空间,A为动作空间,t是转移函数,R是奖励函数,P是智能数体的分布;
把奖赏函数定义为生成数据和真实数据的不可区分度,最大化奖赏函数,尽量生成和真实数据不可取分的数据;
从生成的数据中采样,更新奖赏函数;
用强化学习的方法优化智能数体行为策略。
4.如权利要求3所述的一种众智网络智能数体需求匹配策略优化方法,其特征在于,定义智能主体与众智网络的历史交互数据为τ;初始化用户策略的参数K和奖赏函数的参数F;初始化模拟器策略π以及判别器函数RF;
根据转移函数,得到:
π(s,a)=π(<s,a,n>,a)=π(<s,π(s,.),n>,a);
从真实的历史交互数据τ中采样,用梯度方法更新奖赏函数的参数F,通过最大化如下目标函数:Eτ[log(RF(s,a))]+Eτ[log(1-RF(s,a))],更新判别器函数RF,将RF作为强化学习的奖赏函数,用强化学习的方法优化策略,更新π;
其中,s表示状态空间的某个状态,a表示动作空间的某个动作,n表示用户浏览第几页,π(s,.)表示动作a对应的用户策略,Eτ为历史交互数据采样优化目标函数,RF(s,a)为奖赏函数;
迭代结束后返回智能数体的行为策略。
5.如权利要求1所述的一种众智网络智能数体需求匹配策略优化方法,其特征在于,调整历史排序策略作为训练策略投放给智能数体;
根据智能数体的搜索关键词和智能数体的基本信息返回一个需求供应列表;
智能数体根据自己的行为策略选择供应;
计算所有智能数体的总成交量;
比较历史成交量和所有智能数体的总成交量,确定每项排序策略的优劣。
6.如权利要求5所述的一种众智网络智能数体需求匹配策略优化方法,其特征在于,每一个排序策略都使用强化学习进行自我优化,此过程用一个四元组<S,A,R,T>表示,其中,S为状态空间,A为动作空间,R为奖赏函数,T为转移函数,是否采纳或是否浏览对应着不同的奖赏,目标是找到一个自身最优的策略π*,使得它在任意状态s和任意时间步骤t+k下,都能够获得最大的长期累积奖赏。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910424243.0/1.html,转载请声明来源钻瓜专利网。