[发明专利]一种众智网络智能数体需求匹配策略优化方法及系统在审

申请号：	201910424243.0	申请日：	2019-05-21
公开（公告）号：	CN110148039A	公开（公告）日：	2019-08-20
发明（设计）人：	崔立真;曲喆;李庆忠;鹿旭东;郭伟	申请（专利权）人：	山东大学
主分类号：	G06Q30/06	分类号：	G06Q30/06
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	董雪
地址：	250101 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	智能主体智能排序策略匹配策略网络智能信息空间行为策略搜索关键词基本信息奖赏函数交易服务历史数据历史行为评估指标强化学习行为模式需求供应需求意图总成交量同步的构建排序匹配优化投放返回学习探索网络
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种众智网络智能数体需求匹配策略优化方法，其特征在于，包括：

收集智能主体的基本信息集，构建信息空间智能主体所对应的智能数体分布；

根据收集到的智能主体与众智网络进行供需匹配的历史数据，通过智能主体的历史行为，学习出其内在的奖赏函数；利用强化学习的方法，学习出智能主体的行为策略；

对智能数体实施投放不同的排序策略，根据智能数体的搜索关键词和智能数体的基本信息返回一个需求供应项列表，设置总成交量作为评估指标，确定每项排序策略的优劣。

2.如权利要求1所述的一种众智网络智能数体需求匹配策略优化方法，其特征在于，所述收集智能主体的基本信息集，具体为：

所述基本信息集划分为描述信息D_M和行为信息D_B；

将智能主体的基本信息集对应到信息空间，构成智能数体的特征向量<D_M，D_B>；

每个智能数体的特征向量与物理空间的智能主体一一对应，生成智能数体分布。

3.如权利要求1所述的一种众智网络智能数体需求匹配策略优化方法，其特征在于，

根据生成的智能数体分布以及智能主体与众智网络进行供需匹配的历史数据，使用M＝<S，A，t，R，P>代表智能数体供需匹配的马尔科夫过程；其中，S为状态空间，A为动作空间，t是转移函数，R是奖励函数，P是智能数体的分布；

把奖赏函数定义为生成数据和真实数据的不可区分度，最大化奖赏函数，尽量生成和真实数据不可取分的数据；

从生成的数据中采样，更新奖赏函数；

用强化学习的方法优化智能数体行为策略。

4.如权利要求3所述的一种众智网络智能数体需求匹配策略优化方法，其特征在于，定义智能主体与众智网络的历史交互数据为τ；初始化用户策略的参数K和奖赏函数的参数F；初始化模拟器策略π以及判别器函数R_F；

根据转移函数，得到：

π(s，a)＝π(<s，a，n>，a)＝π(<s，π(s，.)，n>，a)；

从真实的历史交互数据τ中采样，用梯度方法更新奖赏函数的参数F，通过最大化如下目标函数：E_τ[log(R_F(s，a))]+E_τ[log(1-R_F(s，a))]，更新判别器函数R_F，将R_F作为强化学习的奖赏函数，用强化学习的方法优化策略，更新π；

其中，s表示状态空间的某个状态，a表示动作空间的某个动作，n表示用户浏览第几页，π(s，.)表示动作a对应的用户策略，E_τ为历史交互数据采样优化目标函数，R_F(s，a)为奖赏函数；

迭代结束后返回智能数体的行为策略。

5.如权利要求1所述的一种众智网络智能数体需求匹配策略优化方法，其特征在于，调整历史排序策略作为训练策略投放给智能数体；

根据智能数体的搜索关键词和智能数体的基本信息返回一个需求供应列表；

智能数体根据自己的行为策略选择供应；

计算所有智能数体的总成交量；

比较历史成交量和所有智能数体的总成交量，确定每项排序策略的优劣。

6.如权利要求5所述的一种众智网络智能数体需求匹配策略优化方法，其特征在于，每一个排序策略都使用强化学习进行自我优化，此过程用一个四元组<S，A，R，T>表示，其中，S为状态空间，A为动作空间，R为奖赏函数，T为转移函数，是否采纳或是否浏览对应着不同的奖赏，目标是找到一个自身最优的策略π*，使得它在任意状态s和任意时间步骤t+k下，都能够获得最大的长期累积奖赏。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东大学，未经山东大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910424243.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种可交互的智能柜台及其系统、交互方法和存储介质
下一篇：一种虚拟试衣方法、装置、设备和存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q30-00 商业，例如购物或电子商务
G06Q30-02 .行销，例如，市场研究与分析、调查、促销、广告、买方剖析研究、客户管理或奖励；价格评估或确定
G06Q30-04 .签单或开发票
G06Q30-06 .购买、出售或租赁交易
G06Q30-08 ..拍卖

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种众智网络智能数体需求匹配策略优化方法及系统在审

专利文献下载