[发明专利]训练推荐模型的方法、装置及推荐系统有效
申请号: | 201610011669.X | 申请日: | 2016-01-08 |
公开(公告)号: | CN105589971B | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 王亚龙 | 申请(专利权)人: | 车智互联(北京)科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 赵爱军;谢建云 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 推荐 模型 方法 装置 系统 | ||
本发明公开了训练推荐模型的方法、装置及推荐系统。其中,训练推荐模型的装置包括日志获取单元、第一特征提取单元、第二特征提取单元、样本生成单元、样本聚合单元和模型训练单元。日志获取单元适于获取多条访问日志。第一特征提取单元适于从每条访问日志中提取用于标识其对应的页面所呈现的推荐信息的第一特征,并且提取用于标识该页面上下文信息的第二特征。第二特征提取单元适于获取每条访问日志所关联的用户对各种推荐信息的兴趣度排序值,并查询与这条访问日志对应页面所呈现的推荐信息对应的兴趣度排序值作为第三特征。
技术领域
本发明涉及互联网领域,尤其涉及对训练推荐模型的方法、装置及推荐系统。
背景技术
随着互联网的快速发展,网站平台(例如汽车之家)可以提供大量的例如资讯、新闻、广告等内容,以满足用户对信息的需求。然而,用户在面对大量信息时,很难从中获取到自己真正感兴趣的那部分。
通常而言,在用户通过搜索引擎或者直接在网站中浏览网页时,网页中可以显示推荐给用户的信息。网站平台可以通过推荐系统选定待推荐的信息。例如,推荐系统可以通过点击率预估的方式,确定被推荐信息被用户点击的概率。在拥有海量用户和硬件资源有限的前提下,目前大部分点击率预估系统仍旧采用线性模型(LR)进行模型训练,带来的缺点是不能发掘不同特征间的相互作用,且通过人为添加交互项时对交互项的选择费时费力。此外,现有的技术方案,通过庞大的样本特征来训练推荐模型,会占用大量的资源,且技术效率较低。
发明内容
为此,本发明提供一种新的推荐方案,有效的解决了上面至少一个问题。
根据本发明的一个方面,提供一种训练推荐模型的方法。该方法包括以下步骤。获取多条访问日志。其中每条访问日志是对用户访问页面操作的数据记录。每次用户所访问的页面适于呈现推荐信息。每条访问日志包括用于标识用户对所访问页面中推荐信息的点击次数。从每条访问日志中提取用于标识其对应的页面所呈现的推荐信息的第一特征,并且提取用于标识该页面上下文信息的第二特征。获取每条访问日志所关联的用户对各种推荐信息的兴趣度排序值,并查询与这条访问日志对应页面所呈现的推荐信息对应的兴趣度排序值作为第三特征。将每条访问日志对应的点击次数、第一特征、第二特征和第三特征合并为一条第一样本数据。将第一特征、第二特征和第三特征相同的第一样本数据归类为一组样本,并将每组样本聚合为一条第二样本数据。其中,每条第二样本数据包括其所对应一组样本的样本总数和点击总次数。利用第二样本数据对推荐模型进行参数训练操作,以获取第一特征、第二特征和第三特征中每一个特征项的参数值。
可选地,根据本发明的训练推荐模型的方法,在将每组样本聚合为一条第二样本数据后,并且在对推荐模型进行参数训练操作之前,还包括以下步骤。根据采样率选定预定数量的点击总次数为0的第二样本数据。从所选定数据中随机选择一条第二样本数据进行保留,并删除所选定数据中其余的第二样本数据。将所保留这条第二样本数据中样本总数更新为对所选定数据中每个第二样本数据的样本总数进行累计之和。
可选地,在根据本发明的训练推荐模型的方法中,第一特征包括所呈现的推荐信息的标识ID、主题关键词和该推荐信息在页面中的呈现位置中至少一个特征项。第二特征包括页面标识ID、页面主题、页面等级和页面上下文链接中至少一个特征项。
可选地,在根据本发明的训练推荐模型的方法中,推荐信息为汽车信息。第三特征包括用户对车型、车系、品牌中至少一个特征项的兴趣度排序值。
可选地,在根据本发明的训练推荐模型的方法中,从每条访问日志中提取用于标识所对应的页面所呈现的推荐信息的第一特征,并且提取用于标识该页面上下文信息的第二特征的步骤包括:基于分布式计算方式,并通过map-reduce方式对所述多条访问日志进行特征提取,以获取每条访问日志对应的第一特征和第二特征。
可选地,根据本发明的训练推荐模型的方法还包括:获取最新预定时长内新增的访问日志,并生成该访问日志对应的样本数据;根据该样本数据对所述推荐模型进行参数训练操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于车智互联(北京)科技有限公司,未经车智互联(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610011669.X/2.html,转载请声明来源钻瓜专利网。