[发明专利]一种基于文本和图像的用户个性化偏好挖掘方法有效

申请号：	202110265791.0	申请日：	2021-03-11
公开（公告）号：	CN112925980B	公开（公告）日：	2022-08-19
发明（设计）人：	姜元春;李怡;钱洋;刘业政;孙见山;柴一栋;梁瑞成;周永行;贺菲菲;刘心语	申请（专利权）人：	合肥工业大学
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06Q30/06
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉;何梅生
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文本图像用户个性化偏好挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于文本和图像的用户个性化偏好挖掘方法，其特征是按如下步骤进行：

步骤1、构建用户集合U＝{1,2,...,u,...,|U|}，其中，u表示第u个用户，|U|表示用户的数量；

步骤1.1、获取|U|个用户分别购买的产品图片和产品文本描述构成用户购买产品信息集合D，其中，产品文本描述集合表示为D_w，产品图片集合表示为D_v；

步骤1.2、去除所述产品文本描述集合D_w中所有标点符号、停用词、低频词，从而得到预处理后的产品文本描述集合其中，N_u表示第u个用户购买记录中所有不重复的词汇数量，W_un表示第u个用户购买记录中的第n个词汇；n＝1,2,…,N_u；

步骤1.3、对所述产品图片集合D_v中所有图片进行深度残差网络处理，得到预处理后的图片特征向量集合其中，M_u表示第u个用户购买记录中所有不重复的图片数量，V_um表示第u个用户购买记录中的第m个产品图片特征向量；m＝1,2,…,N_u；

步骤1.4、由所述预处理后的产品文本描述集合和预处理后的图片特征向量集合构成处理后的第u个用户购买产品信息D_u′，从而构成处理后的|U|个用户购买产品信息集合D′；

步骤2、指定处理后的|U|个用户购买产品信息集合D′中的偏好数量为K；

步骤3、构建有参贝叶斯模型STILT，并通过分析处理后的|U|个用户购买产品信息集合D′中每个用户的产品描述文本信息和产品图片信息，挖掘用户个性化偏好；

步骤3.1、对于第k个偏好，按照式(1)分别抽取偏好-词汇分布φ_k与偏好-图像特征分布(μ_k,ε_k)：

式(1)中，～表示服从，β是狄利克雷分布的超参数，且φ_k服从狄利克雷Dirichlet分布，(u₀,c₀)是vMF分布的超参数，(m,σ)是对数正态分布logNormal的超参数，且(μ_k,ε_k)服从vMF分布，并有：

φ_k＝(φ_k1,φ_k2,…,φ_ke,…,φ_kE) (2)

(μ_k,ε_k)＝{(μ_k1,ε_k1),(μ_k2,ε_k2),...(μ_kl,ε_kl),(μ_kL,ε_kL)} (3)

式(2)中，φ_ke表示所述处理后的|U|个用户购买产品信息集合D′中第e个词汇在相应偏好下所有词所占权重，e＝1,2,…,E，E表示所述处理后的|U|个用户购买产品信息集合D′中不重复的词汇数量；

式(3)中，(μ_kl,ε_kl)表示所述处理后的|U|个用户购买产品信息集合D′中第l个图像特征在相应偏好下所有词所占权重，l＝1,2,…,L，L是预处理后的|U|个用户购买产品信息集合D'中所有不重复图像特征的总数；

步骤3.2、对于用户集合U中的用户，按照式(4)选择第u个用户在K个主题中感兴趣的偏好，并确定先验分布的参数从而生成偏好兴趣分布

式(4)中，b_u,k是二元指示变量，服从伯努利分布，表示第k个偏好是否为第u个用户感兴趣的偏好并记为偏好选择器，当b_u,k＝1时，表示第k个偏好是第u个用户感兴趣的偏好，当b_u,k＝0时，表示第k个偏好不是第u个用户感兴趣的偏好；π_u表示二元指示变量b_u,k的期望，并服从参数为(γ₀,γ₁)的Beta分布；表示第u个用户的偏好兴趣情况；π_u与构成Beta-Multinomial共轭；表示第u个用户的偏好兴趣分布，服从参数为的狄利克雷分布，θ_u,k表示第u个用户在第k个偏好上的兴趣权重，所有用户的偏好兴趣分布记为向量α₀与α₁为分布的超参数，α₀≤α₁，是与维度相同且每个维度均为1的向量；

步骤3.3、对用户集合U中的每个用户：

步骤3.3.1、根据第u个用户的偏好兴趣分布，利用式(5)生成第u个用户感兴趣的偏好：

Z_un～Mult(θ_u),Y_um～Mult(θ_u) (5)

式(5)中，Z_un,Y_um均服参数为θ_u的多项式分布Mult，Z_un表示第u个用户感兴趣的第n个词汇对应的偏好，Y_um表示第u个用户感兴趣的第m个图像特征对应的偏好；

步骤3.3.2、根据第u个用户感兴趣的偏好，利用式(6)生成第u个用户选择的产品信息与用户感兴趣偏好之间的关系：

式(6)中，w_un服从参数为的多项式分布Mult，表示第u个用户感兴趣的第n个产品词汇；v_um服从参数为的vMF分布，表示第u个用户感兴趣的第m个图像特征；

步骤4、对用户偏好兴趣分布、图像特征偏好分布、词汇偏好分布进行参数推断：

步骤4.0、基于所述用户集合U及处理后的|U|个用户购买产品信息集合D′，对所有参数进行初始化：利用均匀分布为每个用户的购买记录中出现的词汇和图像指定偏好，确定偏好是否是用户感兴趣的偏好；

步骤4.1、根据式(7)采样偏好选择器b_u,k：

式(7)中，∝表示正比于，I(·)为指标函数，Γ(·)表示gamma函数，B_u表示第u个用户感兴趣的偏好集合，且表示第u个用户感兴趣的第k个偏好中的所有图片特征的数量，A_u表示第u个用户的偏好兴趣情况中所有偏好选择器b_u,k＝1的集合，|A_u|为A_u的数量，表示偏好选择器b_u,k作用于第u个用户的次数，P(|)表示条件概率；

步骤4.2、根据式(8)采样第u个用户购买记录中第n个词汇对应的偏好Z_un：

式(8)中，表示除词汇W_un外的所有词汇，表示除词汇W_un对应偏好外的所有偏好，Y表示分配到|U|个用户购买产品信息集合D′中所有图像特征的偏好，C_uk表示第u个用户感兴趣的词汇或图像特征中对应第k个偏好的次数，表示词汇W_un分配到第k个偏好的次数，C_kw表示分配到第k个偏好的词汇数量，除第u个用户感兴趣的第n个词汇外，第u个用户感兴趣的第k个偏好中分配的词汇数量；

步骤4.3、根据式(9)采样第u个用户购买记录中第m个图像特征对应的偏好Y_um：

式(10)中，表示除图像特征V_um外的所有词汇，表示除图像特征V_um对应偏好外的所有偏好，Z表示分配|U|个用户购买产品信息集合D′中所有词汇的偏好，T_D(.)表示vMF分布，ε_k表示vMF分布的参数，由对数正态分布生成，||.||表示二范数，x_j表示分配到第j个偏好中的图像特征的数量；j＝1,2,…,K；i表示当前采样的第k个偏好对应的编号；

步骤4.4、重复执行步骤4.1-步骤4.3，直至所有参数均收敛为止；

步骤5、根据步骤4迭代得到的收敛结果，利用式(11)、式(12)、式(13)得到第k个偏好中第e个词汇的词汇分布φ_ke和第l个图像特征的图像特征分布φ_kl，以及第u个用户对第k个偏好的感兴趣程度θ_uk：

式(11)中，C_kv表示分配到第k个偏好的图像特征数量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合肥工业大学，未经合肥工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110265791.0/1.html，转载请声明来源钻瓜专利网。

上一篇：图书馆书籍排序方法及排序系统
下一篇：一种基于大数据的软件开发方案的生成方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于文本和图像的用户个性化偏好挖掘方法有效

专利文献下载