[发明专利]基于item2vec和向量聚类的实时推荐方法在审
申请号: | 202210246577.5 | 申请日: | 2022-03-14 |
公开(公告)号: | CN114610960A | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 许良武;曹阳;李菲;李晓明 | 申请(专利权)人: | 三江学院 |
主分类号: | G06F16/9035 | 分类号: | G06F16/9035;G06F16/906;G06F40/30;G06K9/62;G06Q30/06 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 钱新园 |
地址: | 210012 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 item2vec 向量 实时 推荐 方法 | ||
本发明公开了一种基于item2vec和向量聚类的实时推荐方法,本发明通过用户的行为序列,离线训练item2vec模型获得物品的Embedding向量,近线计算通过用户近期行为结合物品向量生成用户向量,在实时计算中根据用户向量计算与物品向量之间的相似度进行物品推荐,向量相似计算过程中首先对物品向量进行聚类以加快向量检索速度,最终实现快速实时推荐,挖掘推荐的深层次语义关联,精准捕获用户兴趣转换,提升用户的粘度。
技术领域
本发明涉及大数据智能推荐技术领域,特别涉及一种基于item2vec和向量聚类的实时推荐方法。
背景技术
随着信息爆炸时代的到来,对于数以亿计的用户和百万甚至更高数量级的物品,如何快速并准确地把握住用户兴趣的转移,给用户推荐感兴趣的内容,对于电商、资讯等平台而言至关重要。
发明内容
本发明提供了一种基于item2vec和向量聚类的实时推荐方法,本发明通过用户的行为序列,离线训练item2vec模型获得物品的Embedding向量,近线计算通过用户近期行为结合物品向量生成用户向量,在实时计算中根据用户向量计算与物品向量之间的相似度进行物品推荐,向量相似计算过程中首先对物品向量进行聚类以加快向量检索速度,最终实现快速实时推荐,挖掘推荐的深层次语义关联,精准捕获用户兴趣转换,提升用户的粘度。
本发明的上述目的是通过以下技术方案实现的,一种基于item2vec和向量聚类的实时推荐方法,其特征在于,包括:
item2vec算法模型训练获得物品向量:根据用户的行为数据,构建用户行为序列,通过item2vec算法模型训练获得物品向量并保存在另设的物品向量库中;
近线层用户向量计算:接入用户的点击或浏览行为日志实时消息流kafka,保存用户的近期行为序列;将近期的行为记录序列取出,在物品向量库中检索到物品向量,按照公式, 通过物品向量加权平均计算得到用户向量并保存在另设的用户向量库中,其中,为从当前时间往前数第i物品的物品向量,n为最近浏览的物品数量,α为时间衰减因子,取值为0-1之间的小数;
物品向量聚类:设定每个类别物品数量的范围,从而确定物品向量聚类的类别数量;设定每一类别的初始聚类中心点,通过kmeans聚类算法进行迭代计算获得每个物品向量所属的类别划分,同时获得每个类别的聚类中心向量,将类别标识写入到另设的物品向量聚类库中;
实时推荐:在用户请求的实施推荐接口中,根据用户ID读取用户向量,根据用户向量对物品向量进行检索,检索时,首先根据用户向量与物品向量各聚类中心向量的相似度确定最接近的一个或多个物品聚类,并在检索到的聚类中进一步检索物品向量;将检索结果按相似度进行倒排序,按照召回数量截取相似度最高物品列表形成推荐召回结果集。
进一步的,在构建用户行为序列时,根据用户在物品上所花费时间选择用户真正喜欢的物品作为用户行为序列。
进一步的,在item2vec模型训练过程中,设定稠密向量的维度k,训练数据集每行是一个用户喜欢的物品有序数据集,训练获得的物品向量进行标准化处理,使得标准化后的向量长度为1。
进一步的,α具体取值根据实验确定,借助AB实验结合CTR/CVR指标来选择相对优选值。
进一步的,设定每个类别物品数量的范围时,分别设定每个类别物品数量的最大值Nmax以及最小值Nmin,物品向量聚类的类别数量M为物品向量的规模除以(Nmax+Nmin)/2。
进一步的,设定每一类别的初始聚类中心点时,初始聚类中心点设定规则为:首先所有样本中最靠近中心的样本点作为第一个类别的初始聚类中心点,然后选择距离第一个初始聚类中心点最远的样本点作为第二个类别的初始聚类中心点,然后再选择距离前两个聚类中心点最短距离最大的点作为第三个初始聚类中心点,以此类推,直至选出所有聚类的初始类聚类中心点。
进一步的,用户向量与物品向量聚类中心点计算相似度的过程,利用多核并行矩阵运算加快检索速度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三江学院,未经三江学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210246577.5/2.html,转载请声明来源钻瓜专利网。