[发明专利]利基项目推荐方法及装置有效
申请号: | 201810335754.0 | 申请日: | 2018-04-13 |
公开(公告)号: | CN108564445B | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 刘业政;朱婷婷;熊强;李玲菲;杜非;姜元春;孙见山 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 齐葵 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 项目 推荐 方法 装置 | ||
1.一种利基项目推荐方法,其特征在于,所述方法运用在电商推荐系统上,为用户推荐服务或商品,所述方法由计算机执行,包括:
S101:根据M个已知项目和N个利基项目的描述内容获取所述M个已知项目和所述N个利基项目中每个项目的主题分布;其中M、N为正整数;
选择M个已知项目和N个利基项目为样本,共L=M+N个,对于M个已知项目和N个利基项目中的每个项目都具有描述内容,并且每个项目的描述内容作为一个文档进行保存;
利用潜狄利克雷分配模型和吉布斯Gibbs抽样方法计算L个项目中每个项目中的主题分布;利用概率主题公式(1)、已知词和已知主题的情况下推导主题公式(2)和第l个文档,后称之为文档l中主题为k′时的概率公式(3),得到每个项目的主题分布
公式(1)中,表示文档中的主题,表示文档中的单词向量,表示文档-主题分布,表示主题-单词分布,α表示文档-主题的先验参数,β表示主题-单词的先验参数,其中:即服从狄利克雷分布,服从多项式分布;同理即服从狄利克雷分布,服从多项式分布;
公式(2)和(3)中的先验参数αk和βt分别为主题为k′时的先验参数和单词为t时的先验参数;T表示词汇表中词汇的数量;zi表示第i个单词对应的主题,表示去掉第i个单词对应的主题后剩下的主题向量;表示主题为k′时出现词项t的次数;表示主题为k′时去掉第i个单词后词项t发生的次数;表示文档l中去掉第i个单词后主题k′发生的次数;表示文档l中主题k′发生的概率;表示文档l中主题k′发生的次数;
S102:基于所述每个项目的主题分布,从每个项目中随机抽取一个主题确定为所述每个项目的主题;具体步骤包括:
1)获取文档l的文档-主题分布,
2)按照概率值的大小顺序对文档l的文档-主题的概率值进行排列,
3)选取最大的概率值对应的主题作为文档l的当前主题,
4)即调整l的取值从1~L,重复步骤3)L次,直到所有的文档都得到一个确定的主题;
S103:聚集具有相同主题的已知项目和利基项目,得到N个聚集组,具体步骤如下:
1)获取利基项目n的主题;n取值1~M,
2)利基项目n的主题匹配M个已知产品的主题,
3)利基项目n的主题与M个已知项目中某个或者多个项目的主题相同时,将与利基项目n的主题相同的某个或者多个项目聚集形成聚集组,并将聚集组中的已知项目进行编号,编号分别为1,2,……,J1,
4)调整n取值,重复步骤1、2、3共N次,直到所有的利基项目都找到与其主题相同的已知项目,得到N个聚集组;
S104:根据所述N个聚集组中每个聚集组,基于主题建立每个聚集组的分层贝叶斯线性回归模型;针对每个聚集组,建立基于该聚集组的主题的分层贝叶斯模型;
对于利基项目n,已知项目1,2,……,Jn是同其主题相同的已知项目;其中,Dn表示与利基项目n有关的一组数据,分别表示与利基项目n有相同主题的已知项目的有关数据;u表示用户u,表示利基项目*中用户u的K维特征向量,y*,u表示利基项目*与用户u的相关性,即用户u对利基项目*的评分,y*,u服从高斯分布其中表示的转置向量,σ2表示该高斯分布的方差;y*,u的评分由公式(4)得到,公式(4)如下:
其中,ε表示随机噪声,服从正态分布ε~(0,σ2);表示利基项目*的项目模型参数,为一个K维的向量,而且服从多元高斯分布,即且为先验是正态分布,其中是均值向量,也是一个K维的向量,∑2是K×K维的协方差矩阵,而且服从正态分布,即μ0表示正态分布的均值,aΣ2表示正态分布的方差,而且μ0和a为实数并预先设置;∑服从Inverse Wishart分布,即b和均为实数并预先设置;
基于上述所有分布之间的关系,得出公式(5)和公式(6),即基于主题的分层贝叶斯的线性回归模型中的先验发生概率的公式以及如何求出所有未知量的概率公式,具体公式如下:
其中U*表示利基项目*中的所有用户;
S105:获取所述每个聚集组的分层贝叶斯线性回归模型的模型参数;利用最大期望EM算法估算出概率公式(6)中最可能的模型参数;对于每个利基项目n,有Jn+1个项目出现在分层贝叶斯线性回归模型中,每个项目的回归系数是一个无法观测的隐藏变量;
EM算法的具体流程如下:
(1)初始化分布参数
利用公式(7),即在x,μ,∑,σ已知的情况下求相关项目与用户相关性概率公式;然后,将公式(7)进行处理便于计算得到公式(8),并对公式(8)求相关期望得到公式(9);利用公式(7)、公式(8)、公式(9)即可初始化分布参数;
(2)重复E步骤和M步骤直到EM算法收敛
EM算法中包括E步骤和M步骤,E步骤即是计算期望,利用概率模型参数的现有估计值,计算隐藏变量的期望;M步骤即是最大化,利用E步骤上求得的隐藏变量的期望,对参数模型进行最大似然估计,而且在M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行;
所述E步骤和M步骤如下所示:
E步:基于先验估计贝叶斯回归模型中每个利基项目*的回归系数ω*;利用公式(10)、(11)、(12);
M步:基于E步骤中的公式(12)优化先验和参数σ,得到公式(13)、(14)、(15),进而得到结果μω、和σ2;
将M步骤的结果带入E步骤计算,重复E步骤和M步骤使两个步骤交替迭代后的结果小于阈值γ后停止这个过程;
S106:基于回归模型获取所述每个聚集组中利基项目与所有用户的相关度,向相关度较大的预设数量位用户推荐所述利基项目,其中,所述向相关度较大的预设数量位用户推荐所述利基项目,包括:
计算相关度的数值,对于利基项目*相关度排名高的前N位用户推荐利基项目*;
利用公式(16)估计y*,u的数值,对于利基项目*得分排名高的前N位用户推荐该项目;
2.一种利基项目推荐装置,其特征在于,所述装置运用在电商推荐系统上,为用户推荐服务或商品,所述装置包括:
主题分布获取模块,用于通过计算机根据M个已知项目和N个利基项目的描述内容获取所述M个已知项目和所述N个利基项目中每个项目的主题分布;其中M、N为正整数;所述主题分布获取模块具体包括:
选择M个已知项目和N个利基项目为样本,共L=M+N个,对于M个已知项目和N个利基项目中的每个项目都具有描述内容,并且每个项目的描述内容作为一个文档进行保存;
利用潜狄利克雷分配模型和吉布斯Gibbs抽样方法计算L个项目中每个项目中的主题分布;利用概率主题公式(1)、已知词和已知主题的情况下推导主题公式(2)和第l个文档,后称之为文档l,中主题为k′时的概率公式(3),得到每个项目的主题分布
公式(1)中,表示文档中的主题,表示文档中的单词向量,表示文档-主题分布,表示主题-单词分布,α表示文档-主题的先验参数,β表示主题-单词的先验参数,其中:即服从狄利克雷分布,服从多项式分布;同理即服从狄利克雷分布,服从多项式分布;
公式(2)和(3)中的先验参数αk和βt分别为主题为k′时的先验参数和单词为t时的先验参数;T表示词汇表中词汇的数量;zi表示第i个单词对应的主题,表示去掉第i个单词对应的主题后剩下的主题向量;表示主题为k′时出现词项t的次数;表示主题为k′时去掉第i个单词后词项t发生的次数;表示文档l中去掉第i个单词后主题k′发生的次数;表示文档l中主题k′发生的概率;表示文档l中主题k′发生的次数;
项目主题确定模块,用于通过计算机基于所述每个项目的主题分布,从每个项目中随机抽取一个主题确定为所述每个项目的主题;所述项目主题确定模块具体包括:
1)获取文档l的文档-主题分布,
2)按照概率值的大小顺序对文档l的文档-主题的概率值进行排列,
3)选取最大的概率值对应的主题作为文档l的当前主题,
4)即调整l的取值从1~L,重复步骤3)L次,直到所有的文档都得到一个确定的主题;
聚集组获取模块,用于通过计算机聚集具有相同主题的已知项目和利基项目,得到N个聚集组;所述聚集组获取模块具体包括:
1)获取利基项目n的主题;n取值1~M,
2)利基项目n的主题匹配M个已知产品的主题,
3)利基项目n的主题与M个已知项目中某个或者多个项目的主题相同时,将与利基项目n的主题相同的某个或者多个项目聚集形成聚集组,并将聚集组中的已知项目进行编号,编号分别为1,2,……,J1,
4)调整n取值,重复步骤1、2、3共N次,直到所有的利基项目都找到与其主题相同的已知项目,得到N个聚集组;
回归模型建立模块,用于通过计算机根据所述N个聚集组中每个聚集组,基于主题建立每个聚集组的分层贝叶斯线性回归模型;所述回归模型建立模块具体包括:
针对每个聚集组,建立基于该聚集组的主题的分层贝叶斯模型;
对于利基项目n,已知项目1,2,……,Jn是同其主题相同的已知项目;其中,Dn表示与利基项目n有关的一组数据,分别表示与利基项目n有相同主题的已知项目的有关数据;u表示用户u,表示利基项目*中用户u的K维特征向量,y*,u表示利基项目*与用户u的相关性,即用户u对利基项目*的评分,y*,u服从高斯分布其中表示的转置向量,σ2表示该高斯分布的方差;y*,u的评分由公式(4)得到,公式(4)如下:
其中,ε表示随机噪声,服从正态分布ε~(0,σ2);表示利基项目*的项目模型参数,为一个K维的向量,而且服从多元高斯分布,即且为先验是正态分布,其中是均值向量,也是一个K维的向量,∑2是K×K维的协方差矩阵,而且服从正态分布,即μ0表示正态分布的均值,aΣ2表示正态分布的方差,而且μ0和a为实数并预先设置;∑服从Inverse Wishart分布,即b和均为实数并预先设置;
基于上述所有分布之间的关系,得出公式(5)和公式(6),即基于主题的分层贝叶斯的线性回归模型中的先验发生概率的公式以及如何求出所有未知量的概率公式,具体公式如下:
其中U*表示利基项目*中的所有用户;
模型参数获取模块,用于通过计算机获取所述每个聚集组的分层贝叶斯线性回归模型的模型参数;所述模型参数获取模块包括:
利用最大期望EM算法估算出概率公式(6)中最可能的模型参数;对于每个利基项目n,有Jn+1个项目出现在分层贝叶斯线性回归模型中,每个项目的回归系数是一个无法观测的隐藏变量;
EM算法的具体流程如下:
(1)初始化分布参数
利用公式(7),即在x,μ,∑,σ已知的情况下求相关项目与用户相关性概率公式;然后,将公式(7)进行处理便于计算得到公式(8),并对公式(8)求相关期望得到公式(9);利用公式(7)、公式(8)、公式(9)即可初始化分布参数;
(2)重复E步骤和M步骤直到EM算法收敛
EM算法中包括E步骤和M步骤,E步骤即是计算期望,利用概率模型参数的现有估计值,计算隐藏变量的期望;M步骤即是最大化,利用E步骤上求得的隐藏变量的期望,对参数模型进行最大似然估计,而且在M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行;
所述E步骤和M步骤如下所示:
E步:基于先验估计贝叶斯回归模型中每个利基项目*的回归系数ω*;利用公式(10)、(11)、(12);
M步:基于E步骤中的公式(12)优化先验和参数σ,得到公式(13)、(14)、(15),进而得到结果μω、和σ2;
将M步骤的结果带入E步骤计算,重复E步骤和M步骤使两个步骤交替迭代后的结果小于阈值γ后停止这个过程;
推荐用户确定模块,用于通过计算机基于回归模型获取所述每个聚集组中利基项目与所有用户的相关度,确定相关度较大的预设数量位用户为所述利基项目的推荐用户,其中,所述向相关度较大的预设数量位用户推荐所述利基项目,包括:
计算相关度的数值,对于利基项目*相关度排名高的前N位用户推荐利基项目*;具体包括:
利用公式(16)估计y*,u的数值,对于利基项目*得分排名高的前N位用户推荐该项目;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810335754.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动售货管理系统及管理方法
- 下一篇:一种商场自动结算系统及其实现方法