[发明专利]训练推荐模型的方法、装置及推荐系统有效
申请号: | 201610011669.X | 申请日: | 2016-01-08 |
公开(公告)号: | CN105589971B | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 王亚龙 | 申请(专利权)人: | 车智互联(北京)科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 赵爱军;谢建云 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 推荐 模型 方法 装置 系统 | ||
1.一种训练推荐模型的方法,包括:
获取多条访问日志,其中每条访问日志是对用户访问页面操作的数据记录,每次用户所访问的页面适于呈现推荐信息,每条访问日志包括用于标识用户对所访问页面中推荐信息的点击次数;
从每条访问日志中提取用于标识其对应的页面所呈现的推荐信息的第一特征,并且提取用于标识该页面上下文信息的第二特征;
获取每条访问日志所关联的用户对各种推荐信息的兴趣度排序值,并查询与这条访问日志对应页面所呈现的推荐信息对应的兴趣度排序值作为第三特征;
将每条访问日志对应的点击次数、第一特征、第二特征和第三特征合并为一条第一样本数据;
将第一特征、第二特征和第三特征相同的第一样本数据归类为一组样本,并将每组样本聚合为一条第二样本数据,其中每条第二样本数据包括其所对应一组样本的样本总数和点击总次数;
根据采样率选定预定数量的点击总次数为0的第二样本数据;
从所选定数据中随机选择一条第二样本数据进行保留,并删除所选定数据中其余的第二样本数据,以及将所保留这条第二样本数据中样本总数更新为对所选定数据中每个第二样本数据的样本总数进行累计之和;以及
利用所述第二样本数据对推荐模型进行参数训练操作,以获取所述第一特征、第二特征和第三特征中每一个特征项的参数值。
2.如权利要求1所述的方法,其中,
所述第一特征包括所呈现的推荐信息的标识ID、主题关键词和该推荐信息在页面中的呈现位置中至少一个特征项;
所述第二特征包括页面标识ID、页面主题、页面等级和页面上下文链接中至少一个特征项。
3.如权利要求2所述的方法,其中所述推荐信息为汽车信息,所述第三特征包括用户对车型、车系、品牌中至少一个特征项的兴趣度排序值。
4.如权利要求1-3中任一项所述的方法,所述从每条访问日志中提取用于标识所对应的页面所呈现的推荐信息的第一特征,并且提取用于标识该页面上下文信息的第二特征的步骤包括:
基于分布式计算方式,并通过map-reduce方式对所述多条访问日志进行特征提取,以获取每条访问日志对应的第一特征和第二特征。
5.如权利要求1-3中任一项所述的方法,还包括:
获取最新预定时长内新增的访问日志,并生成该访问日志对应的样本数据;
根据该样本数据对所述推荐模型进行参数训练操作。
6.如权利要求5所述的方法,其中所述推荐模型为Factorization Machines(FM)模型:
其中,xi为第i个特征项,w0为全局偏移参数,wi为特征项xi的参数,vi为xi特征项的分解向量参数,n为第一特征、第二特征和第三特征中特征项总数,为预测值。
7.如权利要求6所述的方法,其中所述推荐模型对应的损失函数为:
其中,loss为损失值,clk为每条第二样本数据中点击总次数,pv为每条第二样本数据中样本总数;
所述推荐模型对应的梯度函数为:
grad=(pred-1.0)*clk+pred*(pv-clk)
其中,grad为梯度值,pred为根据梯度函数和损失函数对推荐模型进行训练过程中,每次迭代得到的预测值
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于车智互联(北京)科技有限公司,未经车智互联(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610011669.X/1.html,转载请声明来源钻瓜专利网。