[发明专利]一种针对单类协同过滤问题的负样本选择方法有效
申请号: | 201710285697.5 | 申请日: | 2017-04-27 |
公开(公告)号: | CN107423335B | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 刘梦娟;马小栓;薛浩 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9536;G06Q30/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 611731 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 协同 过滤 问题 样本 选择 方法 | ||
1.一种针对单类协同过滤问题的负样本选择方法,其特征在于,包括以下步骤:
步骤1:针对每个用户u,计算用户u没有行为的物品的流行度权重具体步骤为:
步骤1.1:统计在整个系统日志中,每个物品i被所有用户执行行为的总次数,记为num(i),i=1,2,…,N,N为物品总数;
步骤1.2:将物品按被所有用户执行行为的次数num(i)由低到高升序排列;
步骤1.3:将升序排列后的N个物品按数量平均分为K个等级,每个等级中物品的数量为K个等级分别记为level1,level2…levelK,levelk中物品被执行的行为总数小于等于levelk+1中物品被执行的行为总数;
步骤1.4:根据每个物品所属于的等级,给每个物品标注流行度,属于levelk的物品其流行度为k(k=1,2,…,K);
步骤1.5:利用公式(1)计算每个物品的流行度权重,其中α为调节因子,由系统根据实际情况设定,范围为(0,1],这里物品的流行度越大流行度权重越大,其作为负样本的权重越大,假设物品i属于levelk,即物品i的流行度为k;
wp(i)=1+α·k (1)
步骤1.6:通过公式(2)所示的最大最小归一化方法,将每个物品的流行度权重归一化到[0,1]范围,其中min{wp(i)}表示所有物品中最小流行度,max{wp(i)}表示所有物品中最大流行度;
步骤2:根据每个用户的社交关系,计算用户u没有行为的物品被选择作为该用户负样本的社交关系权重ws(u,i),具体步骤为:
步骤2.1:针对一个特定用户u,计算该用户的好友有行为而该用户没有行为的物品集合,记为itemDIFF(u),计算公式如(3)所示,这里用户u的好友集合为friend(u),item(x)表示好友x有行为的物品集合,item(u)表示用户u有行为的物品集合;itemDIFF(u)如果不为空集,说明存在物品是用户u好友有行为而用户u没有行为的,则继续执行步骤2.2;否则,如果itemDIFF(u)为空集,说明不存在物品是用户u没有行为而好友有行为的,因此无法根据社交关系推断哪些没有行为的物品是用户u的负样本,因此对于用户u物品i被选择为负样本的权重均设为0,即ws(u,i)=0,执行步骤3;
步骤2.2:建立物品集合itemDIFF(u)中每个物品与用户u好友的倒排索引表,对于itemDIFF(u)中的物品i,只有好友x对其有行为时,倒排索引表的元素a[i][x]=1,否则a[i][x]=0;
步骤2.3:计算用户u的社交关系对itemDIFF(u)中的物品i作为负样本的权重,如公式(4)所示,其中表示好友x对用户u的影响力,定义如公式(5)所示,这里overlap(x,u)表示好友x和用户u有共同行为的物品数,越大,说明好友x对用户u的影响力越大;
步骤2.4:重复执行步骤2.1-2.3,得到每个用户根据其社交关系计算的没有行为的物品被选择为负样本的社交关系权重;
步骤3:基于物品的特征和每个用户的历史行为,利用逻辑回归模型分别计算每个用户没有行为的物品被选择为负样本的物品特征权重wf(u,i),具体步骤为:
步骤3.1:物品的特征记为f1,f2,…fF,针对一个特定用户u已有行为的物品集合,基于逻辑回归模型训练用户u对应的物品特征偏好模型及参数wff(f=1,2,…F);
步骤3.2:利用训练后的用户u的物品特征偏好模型,计算用户u对没有行为的物品i的偏好程度like(u,i),计算方法如公式(6)所示;
步骤3.3:计算用户u,对于其没有行为的物品i选择作为该用户负样本的物品特征权重,计算方法如公式(7)所示;
wf(u,i)=1-like(u,i) (7)
步骤3.4:重复执行步骤3.1-3.3,训练每个用户关于物品特征的偏好模型,计算每个用户,考虑物品特征因素,选择物品作为负样本的物品特征权重;
步骤4:融合物品的流行度权重、社交关系权重、物品特征权重,计算用户u选择物品i作为其负样本的概率,如公式(8)所示,其中是物品的流行度权重,η1是物品的流行度权重对该物品被选择为用户u的负样本的影响力因子,η1的范围为[0,1];ws(u,i)是参考用户u的社交关系的社交关系权重,η2是社交关系权重对该物品被选择为用户u的负样本的影响力因子,η2的范围为[0,1];wf(u,i)是参考用户对物品特征偏好的物品特征权重,η3是用户对物品特征偏好权重对该物品被选择为用户u的负样本的影响力因子,η3的范围为[0,1];满足η1+η2+η3=1;
步骤5:对每个用户u,将用户u没有行为的物品根据计算得到的负样本概率值降序排列,按照与正样本数的一个比例关系,选择若干概率值最高的物品作为负样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710285697.5/1.html,转载请声明来源钻瓜专利网。