[发明专利]一种用户行为表征的方法及系统有效
申请号: | 201911304558.8 | 申请日: | 2019-12-17 |
公开(公告)号: | CN111178946B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 李秀;张凌霄 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
主分类号: | G06Q30/0201 | 分类号: | G06Q30/0201;G06Q30/0202;G06Q30/0601;G06F18/22;G06F18/241 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 行为 表征 方法 系统 | ||
1.一种用户行为表征的方法,其特征在于,包括如下步骤:
S1:获取用户的行为信息,所述用户的行为信息包括所述用户和与所述用户在一个时间段内发生交互关系的商品对;所述用户的行为信息表征为序列形式;
S2:获取所述商品的商品ID并对所述商品ID进行随机掩码操作;
S3:对所述用户和所述商品进行编码,得到编码后的用户行为序列;用2-6层的堆叠提取器提取所述编码后的用户行为序列的隐层特征向量;将所述隐层特征向量进行标准化得到标准化后的隐层特征向量,进而得到标准化后的用户行为序列;
S4:根据所述标准化后的用户行为序列计算掩码的损失函数,所述掩码的损失函数的标签为随机掩码操作中被掩码的所述商品ID;
所述掩码的损失函数为:
其中,Su'是用户行为序列Su被掩码后的版本,是用户行为序列中被随机掩掉的商品,是被随机掩掉的商品ID,vmask是预测的概率,Pmask(·)采用Softmax函数;
S5:根据所述标准化后的用户行为序列中首个字段所对应的特征向量作为用户行为表征,并与所述商品的编码计算余弦距离;根据所述余弦距离以所述用户和所述商品是否匹配作为标签计算匹配任务的损失函数;
匹配任务的损失函数为二进制交叉熵函数:
Lossmatching=-(log(σ(scorepos·c))+log(1-σ(scoreneg·c)))
其中,Ev为商品ID的编码向量,为第L Transformer层的隐含层输出的第1个向量;σ(·)为Sigmoid函数;c缩放系数;scorepos为正样本分数,scoreneg为负样本分数;
S6:将所述掩码的损失函数和所述匹配任务的损失函数求和得到总损失函数;
S7:获取新用户的行为信息,所述新用户的行为信息包括所述新用户和与所述新用户发生交互关系的商品对;所述新用户的行为信息表征为序列形式;
S8:对所述新用户和所述商品进行编码,得到编码后的新用户行为序列;用2-6层的堆叠提取器提取所述编码后的新用户行为序列的隐层特征向量;将所述隐层特征向量进行标准化得到标准化后的隐层特征向量,进而得到标准化后的新用户行为序列。
2.如权利要求1所述的用户行为表征的方法,其特征在于,还包括:若所述总损失函数没有收敛,则利用小批量梯度下降的方法,进行权重的更新。
3.如权利要求1所述的用户行为表征的方法,其特征在于,对所述用户和所述商品进行编码包括:构建所述商品和所述商品ID之间的映射关系,根据所述映射关系对所述商品ID进行编码;对所述用户和所述商品的交互次序进行编码;对所述用户和所述商品交互发生的时间点进行编码。
4.如权利要求1所述的用户行为表征的方法,其特征在于,所述堆叠提取器是Transformer特征提取器;所述隐层特征向量进行标准化是使得所述隐层特征向量的区间为[0,1]。
5.如权利要求1-4任一所述的用户行为表征的方法,其特征在于,所述时间段为0-180天。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911304558.8/1.html,转载请声明来源钻瓜专利网。