[发明专利]一种融合多因素社交活动的推荐方法有效
申请号: | 201911384143.6 | 申请日: | 2019-12-28 |
公开(公告)号: | CN111241415B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 陈艺 | 申请(专利权)人: | 四川文理学院 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F16/9535;G06F16/9537;G06F18/2132;G06F17/18 |
代理公司: | 北京方圆嘉禾知识产权代理有限公司 11385 | 代理人: | 程华 |
地址: | 635000 四川省达州市通川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 因素 社交 活动 推荐 方法 | ||
1.一种融合多因素社交活动的推荐方法,其特征在于,包括以下步骤:
S1、构建用户对活动兴趣度的概率模型;利用LDA文件主题模型求取用户ui与其参加过的所有社交活动的主题分布,并用用户ui的主题分布表征其兴趣度,在LDA中,设Ψs表示隐含主题s在单词集合上的多项式分布,docui表示用户ui∈U所有参加过的社交活动内容形成的文件,其中docui经过LDA文件主题模型求取其中所有隐含主题的多项式分布,而用户对社交活动的兴趣度表示成文件docui的主题概率分布;
S2、构建用户对召集者影响力概率模型;设用户ui参加某活动召集者ci组织的社交活动次数为cuij,cuij值越大说明召集者ci组织的活动对用户ui的影响力越大;
S3、构建用户因地理位置偏好的概率模型;将社交活动举办地与用户常住距离的概率定义为:
式中:Dis表示活动举办地与用户常住地之间的距离;
ν、为幂律分布函数的参数;
S4、将S1、S2和S3中建立概率模型采用不同权值配比综合形成最终的社交活动个性推荐模型,则用户ui参加新建社交活动aj的最终概率为下式:
式中:表示基于用户对新建社交活动aj的兴趣度影响的概率,
表示基于地理位置参加新建社交活动aj的概率,
表示基于召集者影响力参加新建社交活动aj的概率,ɑ,β为权重因子;
在S1中,设在某社交活动内容的文件中含有Nk个隐含主题,则LDA对隐含主题的多项式分布求取过程为:
首先利用LDA分布函数Dirichlet(δ)对文件中的每个隐含主题s∈{1,2,3,...,Nk}生成隐含主题与单词的概率分布ρs,再利用LDA分布函数Dirichlet(γ)对文件中的每个文件生成文件与单词的概率分布利用LDA多项式分布函数对文件中的第m单词生成主题分配利用LDA多项式分布函数对文件中的第m单词生成
则用户文件的似然函数为:
式中:δ、γ为LDA分布函数的参数,
Γ分别表示文件中所有单词、单词的数量、单词的主题分配、单词对应的主题-单词概率分布;
设在LDA文件主题模型中文档间是相互独立的,则M个文件的完全似然函数如下:
式中:W,S,Φ分别表示文件中所有单词、主题的分布以及所有文件-主题词概率分布;
然后再采用吉布斯采样将隐含主题词s从联合的概率分布中采样出来:
式中:为计数,表示从文件或主题词中剔除第i项后的数量,
表示文件中第Nk个主题词的统计数量,
表示z个单词分配给主题s的次数;
经过训练集的多次训练后根据新建的社交活动aj的文件采用吉布斯采样来估计社交活动aj主题分布为:
同时,设用户ui的文件为社交活动aj的文件为两者所对应的主题分布为和为了求取用户与社交活动的主题的相似度,引入库尔贝克-莱布勒散度和延森-香农散度来计算两者之间的相似度,延森-香农散度定义为:
式中:KL(·)表示库尔贝克-莱布勒散度,其定义为:
其中,JS(ui||aj)会随着和两者主题分布的差别而增大,定义用户ui对社交活动aj的兴趣度为Ii,j,则
Ii,j=1-JS(ui||aj)
然后再利用最大最小值归一化法对兴趣度Ii,j进行归一化,则得到用户ui基于用户对活动兴趣度参加新建社交活动aj的预测概率为
在S2中,具体过程为先构建一个用户与召集者间的影响力矩阵C,通过一个已经结束的社交活动ai得到两个数据:一是参加此次社交活动的人数二是感兴趣的用户数同时,设社交活动本身的影响力为
式中:λ为权重因子,0≤λ≤1;
EA表示所有结束的社交活动集合,
表示召集者ci曾经组织的社交活动集合,
将召集者ci所有曾经组织的社交活动平均影响力来表示召集者ci的影响力:
则影响力矩阵C条件分布满足如下:
式中:N(x|μ,σ2)表示均值μ方差σ2的高斯分布,当用户ui参加召集者ci组织的任何一场活动时Vi,j=1,否则为0,
D,Q,Numu,Numc分别表示所有用户和所有召集者的隐式特征矩阵以及用户数量和召集者数量;
针对用户和召集者的隐式特征矩阵,利用均值μ=0的高斯先验分布求解:
对上式进行取对数,后验分布得到:
式中:B表示隐式特征矩阵维度,Z为常量;
利用豆瓣同城数据集测试在不同的隐式特征矩阵维度B值下Precision@5和Recall@5的值的方法,确定所述隐式特征矩阵维度B的值;
在S3中,具体过程为将活动举办地与用户常住距离的概率定义:
式中:Dis表示活动举办地与用户常住地之间的距离,
ν、为幂律分布函数的参数,
然后通过取对数来估算参数ν、的值:
由于logν和为线性系数,利用最小二乘法拟合方法来估计系数logν和
设用户ui参加过的所有社交活动的地理位置集合为对地理位置集合中的任意元素gi,用户ui在其位置参加社交活动的次数为给定的社交活动aj,其地理位置为那么用户ui参加社交活动aj的概率为:
式中:表示地理位置gi,间的距离,
然后得到用户ui基于地理位置参加新建社交活动aj的概率为:
2.根据权利要求1所述的一种融合多因素社交活动的推荐方法,其特征在于,将所述后验分布得到的公式进行最大化得到一个等价目标函数,该函数由二次正则化项平方误差和范数平方组成:
式中:表示弗罗贝尼乌斯范数的平方;
利用梯度下降法求解目标函数F,对Di、Qj求偏导数:
再对用户与召集者间的影响力矩阵C中的缺失值由下式进行估值:
最后得基于用户ui对召集者ci影响力的影响参加社交活动aj的概率为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川文理学院,未经四川文理学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911384143.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动铸造线铸件冷却车
- 下一篇:一种性能优化的移动端运维巡检任务下载方法