[发明专利]一种基于文本和图像的用户个性化偏好挖掘方法有效
申请号: | 202110265791.0 | 申请日: | 2021-03-11 |
公开(公告)号: | CN112925980B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 姜元春;李怡;钱洋;刘业政;孙见山;柴一栋;梁瑞成;周永行;贺菲菲;刘心语 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06Q30/06 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 图像 用户 个性化 偏好 挖掘 方法 | ||
1.一种基于文本和图像的用户个性化偏好挖掘方法,其特征是按如下步骤进行:
步骤1、构建用户集合U={1,2,...,u,...,|U|},其中,u表示第u个用户,|U|表示用户的数量;
步骤1.1、获取|U|个用户分别购买的产品图片和产品文本描述构成用户购买产品信息集合D,其中,产品文本描述集合表示为Dw,产品图片集合表示为Dv;
步骤1.2、去除所述产品文本描述集合Dw中所有标点符号、停用词、低频词,从而得到预处理后的产品文本描述集合其中,Nu表示第u个用户购买记录中所有不重复的词汇数量,Wun表示第u个用户购买记录中的第n个词汇;n=1,2,…,Nu;
步骤1.3、对所述产品图片集合Dv中所有图片进行深度残差网络处理,得到预处理后的图片特征向量集合其中,Mu表示第u个用户购买记录中所有不重复的图片数量,Vum表示第u个用户购买记录中的第m个产品图片特征向量;m=1,2,…,Nu;
步骤1.4、由所述预处理后的产品文本描述集合和预处理后的图片特征向量集合构成处理后的第u个用户购买产品信息Du′,从而构成处理后的|U|个用户购买产品信息集合D′;
步骤2、指定处理后的|U|个用户购买产品信息集合D′中的偏好数量为K;
步骤3、构建有参贝叶斯模型STILT,并通过分析处理后的|U|个用户购买产品信息集合D′中每个用户的产品描述文本信息和产品图片信息,挖掘用户个性化偏好;
步骤3.1、对于第k个偏好,按照式(1)分别抽取偏好-词汇分布φk与偏好-图像特征分布(μk,εk):
式(1)中,~表示服从,β是狄利克雷分布的超参数,且φk服从狄利克雷Dirichlet分布,(u0,c0)是vMF分布的超参数,(m,σ)是对数正态分布logNormal的超参数,且(μk,εk)服从vMF分布,并有:
φk=(φk1,φk2,…,φke,…,φkE) (2)
(μk,εk)={(μk1,εk1),(μk2,εk2),...(μkl,εkl),(μkL,εkL)} (3)
式(2)中,φke表示所述处理后的|U|个用户购买产品信息集合D′中第e个词汇在相应偏好下所有词所占权重,e=1,2,…,E,E表示所述处理后的|U|个用户购买产品信息集合D′中不重复的词汇数量;
式(3)中,(μkl,εkl)表示所述处理后的|U|个用户购买产品信息集合D′中第l个图像特征在相应偏好下所有词所占权重,l=1,2,…,L,L是预处理后的|U|个用户购买产品信息集合D'中所有不重复图像特征的总数;
步骤3.2、对于用户集合U中的用户,按照式(4)选择第u个用户在K个主题中感兴趣的偏好,并确定先验分布的参数从而生成偏好兴趣分布
式(4)中,bu,k是二元指示变量,服从伯努利分布,表示第k个偏好是否为第u个用户感兴趣的偏好并记为偏好选择器,当bu,k=1时,表示第k个偏好是第u个用户感兴趣的偏好,当bu,k=0时,表示第k个偏好不是第u个用户感兴趣的偏好;πu表示二元指示变量bu,k的期望,并服从参数为(γ0,γ1)的Beta分布;表示第u个用户的偏好兴趣情况;πu与构成Beta-Multinomial共轭;表示第u个用户的偏好兴趣分布,服从参数为的狄利克雷分布,θu,k表示第u个用户在第k个偏好上的兴趣权重,所有用户的偏好兴趣分布记为向量α0与α1为分布的超参数,α0≤α1,是与维度相同且每个维度均为1的向量;
步骤3.3、对用户集合U中的每个用户:
步骤3.3.1、根据第u个用户的偏好兴趣分布,利用式(5)生成第u个用户感兴趣的偏好:
Zun~Mult(θu),Yum~Mult(θu) (5)
式(5)中,Zun,Yum均服参数为θu的多项式分布Mult,Zun表示第u个用户感兴趣的第n个词汇对应的偏好,Yum表示第u个用户感兴趣的第m个图像特征对应的偏好;
步骤3.3.2、根据第u个用户感兴趣的偏好,利用式(6)生成第u个用户选择的产品信息与用户感兴趣偏好之间的关系:
式(6)中,wun服从参数为的多项式分布Mult,表示第u个用户感兴趣的第n个产品词汇;vum服从参数为的vMF分布,表示第u个用户感兴趣的第m个图像特征;
步骤4、对用户偏好兴趣分布、图像特征偏好分布、词汇偏好分布进行参数推断:
步骤4.0、基于所述用户集合U及处理后的|U|个用户购买产品信息集合D′,对所有参数进行初始化:利用均匀分布为每个用户的购买记录中出现的词汇和图像指定偏好,确定偏好是否是用户感兴趣的偏好;
步骤4.1、根据式(7)采样偏好选择器bu,k:
式(7)中,∝表示正比于,I(·)为指标函数,Γ(·)表示gamma函数,Bu表示第u个用户感兴趣的偏好集合,且表示第u个用户感兴趣的第k个偏好中的所有图片特征的数量,Au表示第u个用户的偏好兴趣情况中所有偏好选择器bu,k=1的集合,|Au|为Au的数量,表示偏好选择器bu,k作用于第u个用户的次数,P(|)表示条件概率;
步骤4.2、根据式(8)采样第u个用户购买记录中第n个词汇对应的偏好Zun:
式(8)中,表示除词汇Wun外的所有词汇,表示除词汇Wun对应偏好外的所有偏好,Y表示分配到|U|个用户购买产品信息集合D′中所有图像特征的偏好,Cuk表示第u个用户感兴趣的词汇或图像特征中对应第k个偏好的次数,表示词汇Wun分配到第k个偏好的次数,Ckw表示分配到第k个偏好的词汇数量,除第u个用户感兴趣的第n个词汇外,第u个用户感兴趣的第k个偏好中分配的词汇数量;
步骤4.3、根据式(9)采样第u个用户购买记录中第m个图像特征对应的偏好Yum:
式(10)中,表示除图像特征Vum外的所有词汇,表示除图像特征Vum对应偏好外的所有偏好,Z表示分配|U|个用户购买产品信息集合D′中所有词汇的偏好,TD(.)表示vMF分布,εk表示vMF分布的参数,由对数正态分布生成,||.||表示二范数,xj表示分配到第j个偏好中的图像特征的数量;j=1,2,…,K;i表示当前采样的第k个偏好对应的编号;
步骤4.4、重复执行步骤4.1-步骤4.3,直至所有参数均收敛为止;
步骤5、根据步骤4迭代得到的收敛结果,利用式(11)、式(12)、式(13)得到第k个偏好中第e个词汇的词汇分布φke和第l个图像特征的图像特征分布φkl,以及第u个用户对第k个偏好的感兴趣程度θuk:
式(11)中,Ckv表示分配到第k个偏好的图像特征数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110265791.0/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序