[发明专利]基于item2vec和向量聚类的实时推荐方法在审
申请号: | 202210246577.5 | 申请日: | 2022-03-14 |
公开(公告)号: | CN114610960A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 许良武;曹阳;李菲;李晓明 | 申请(专利权)人: | 三江学院 |
主分类号: | G06F16/9035 | 分类号: | G06F16/9035;G06F16/906;G06F40/30;G06K9/62;G06Q30/06 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 钱新园 |
地址: | 210012 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 item2vec 向量 实时 推荐 方法 | ||
1.一种基于item2vec和向量聚类的实时推荐方法,其特征在于,包括:
item2vec算法模型训练获得物品向量:根据用户的行为数据,构建用户行为序列,通过item2vec算法模型训练获得物品向量并保存在另设的物品向量库中;
近线层用户向量计算:接入用户的点击或浏览行为日志实时消息流kafka,保存用户的近期行为序列;将近期的行为记录序列取出,在物品向量库中检索到物品向量,按照公式, 通过物品向量加权平均计算得到用户向量并保存在另设的用户向量库中,其中,为从当前时间往前数第i物品的物品向量,n为最近浏览的物品数量,α为时间衰减因子,取值为0-1之间的小数;
物品向量聚类:设定每个类别物品数量的范围,从而确定物品向量聚类的类别数量;设定每一类别的初始聚类中心点,通过kmeans聚类算法进行迭代计算获得每个物品向量所属的类别划分,同时获得每个类别的聚类中心向量,将类别标识写入到另设的物品向量聚类库中;
实时推荐:在用户请求的实施推荐接口中,根据用户ID读取用户向量,根据用户向量对物品向量进行检索,检索时,采用两级检索机制加快检索效率,首先根据用户向量与物品向量各聚类中心向量的相似度确定最接近的一个或多个物品聚类,并在检索到的聚类中进一步检索物品向量;将检索结果按相似度进行倒排序,按照召回数量截取相似度最高物品列表形成推荐召回结果集。
2.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法,其特征在于,在构建用户行为序列时,根据用户在物品上所花费时间选择用户真正喜欢的物品作为用户行为序列。
3.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法,其特征在于,在item2vec模型训练过程中,设定稠密向量的维度k,训练数据集每行是一个用户喜欢的物品有序数据集,训练获得的物品向量进行标准化处理,使得标准化后的向量长度为1。
4.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法,其特征在于,α具体取值根据实验确定,借助AB实验结合CTR/CVR指标来选择相对优选值。
5.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法,其特征在于,设定每个类别物品数量的范围时,分别设定每个类别物品数量的最大值Nmax以及最小值Nmin,物品向量聚类的类别数量M为物品向量的规模除以(Nmax+Nmin)/2。
6.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法,其特征在于,设定每一类别的初始聚类中心点时,初始聚类中心点设定规则为:首先所有样本中最靠近中心的样本点作为第一个类别的初始聚类中心点,然后选择距离第一个初始聚类中心点最远的样本点作为第二个类别的初始聚类中心点,然后再选择距离前两个聚类中心点最短距离最大的点作为第三个初始聚类中心点,以此类推,直至选出所有聚类的初始类聚类中心点。
7.根据权利要求1所述的基于item2vec和向量聚类的实时推荐方法,其特征在于,用户向量与物品向量聚类中心点计算相似度的过程,利用多核并行矩阵运算加快检索速度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三江学院,未经三江学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210246577.5/1.html,转载请声明来源钻瓜专利网。