[发明专利]一种基于强化学习和加权元路径的语义推荐方法在审
申请号: | 202111203509.2 | 申请日: | 2021-10-15 |
公开(公告)号: | CN113935804A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 宫继兵;郎月;李学文 | 申请(专利权)人: | 燕山大学 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06F16/9535;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 石家庄众志华清知识产权事务所(特殊普通合伙) 13123 | 代理人: | 田秀芬 |
地址: | 066004 河北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 加权 路径 语义 推荐 方法 | ||
1.一种基于强化学习和加权元路径的语义推荐方法,其特征在于:包括以下步骤:
S1、收集用户购买记录、评分记录、各类实体属性信息,获取记录中用户和物品的异构信息网络;
S2、对S1中收集的用户购买记录、评分记录以及各类实体属性信息进行预处理,对数据清洗,将处理好的数据作为后续模型训练的输入;
S3、将S2处理好的数据进行分析,不同的元路径代表着不同的语义关联信息,在异构信息网络中综合考虑实体的属性,利用不同元路径语义信息度量异构信息网格中用户的相关性;
S4、利用强化学习算法计算不同元路径的权重,自主学习不同元路径的权重,构建马尔可夫决策过程,根据数据的特点设计状态、动作、环境、奖励函数,对元路径的权重进行训练,得到元路径选择权重的信息并生成记录;
S5、基于元路径选择权重的信息记录,构建深层决策网络,设计经验池、预测网络和结果网络,对深层决策网络进行训练,然后对输出的奖励值进行拟合,得到最佳权重;
S6、依据得到的最佳权重的元路径,计算用户相似度,并选取Top-N进行排列,完成推荐。
2.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法,其特征在于:S2中,所述数据清洗包括异常数据清洗,从不同特征角度对收集的用户购买记录、评分记录以及各类实体属性信息进行分析,对收集的用户购买记录、评分记录以及各类实体属性信息进行特征工程。
3.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法,其特征在于:S3中,具体包括以下步骤:
S31、根据不同元路径将所述异构信息网络分解为不同的同构子网络;
S32、从所述同构子网络提取各个记录中用户和物品的语义信息;
S33、根据不同的语义信息度量用户的相似度。
4.根据权利要求1所述的一种基于强化学习和加权元路径的语义推荐方法,其特征在于:S4中,具体包括以下步骤:
S41、构建马尔可夫决策过程;
S411、定义状态集,状态为分析选择出来的初始化元路径的不同权重,计算公式为:
其中,在时刻t之前,不同元路径的权重有N种选择;S代表状态集,V代表元路径选择不同权重的次数,n代表交互记录的时间跨度,p代表元路径与权重选择的最大交互行为;
S412、定义动作集,动作为每条元路径选择的不同权重包含用户之间的相似度特征,公式为:
其中,at代表动作,Vk代表不同权重初始序列,代表交互行为的次数;
S413、定义回报函数,函数负责计算对当前状态采取动作后得到的奖励值;
S414、定义折扣因子,代表在训练过程中整个长期的奖励值对当下动作选择的影响,一般取值在0~1之间;
S42、决策过程训练出不同元路径所选择的权重的信息,学习出元路径所占权重最佳的策略;
S43、将学习过程中累计的选择权重的经验存储在经验池中,生成经验记录。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于燕山大学,未经燕山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111203509.2/1.html,转载请声明来源钻瓜专利网。