[发明专利]在线训练模型的方法、推送方法、装置以及设备有效

申请号：	201810265754.8	申请日：	2018-03-28
公开（公告）号：	CN110321422B	公开（公告）日：	2023-04-14
发明（设计）人：	赵沛霖	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F16/335	分类号：	G06F16/335;G06F18/214;H04L67/55
代理公司：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	王仲凯
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	在线训练模型方法推送装置以及设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种在线训练模型的方法，包括：从流式数据中获取训练样本，根据训练样本、历史模型参数和非凸正则项确定模型的目标函数，确定使目标函数最小的当前模型参数，根据当前模型参数更新模型。在线训练过程中，由于采用了非凸正则项代替L1正则项进行特征筛选，能够减小惩罚偏差，筛选出有效特征，保障了稀疏性，提高了模型的泛化性能。本申请还提供了一种信息推送方法，获取用户特征数据和内容特征数据，基于在线训练模型方法训练得到的推送模型，根据用户特征数据、内容特征数据和推送模型，确定目标用户对目标信息感兴趣概率，根据感兴趣概率确定是否推送。本申请还提供了一种在线训练模型的装置和信息推送装置。

技术领域

本申请涉及互联网技术领域，尤其涉及一种基于非凸正则项的在线训练模型的方法、推送方法、装置以及设备。

背景技术

随着互联网技术的快速发展，互联网中信息量已然处于爆炸状态，若是将所有内容都放在网站首页上用户是无从阅读的，信息的利用率将会十分低下。因此，就需要推送系统来帮助用户过滤掉低价值的信息。好的推送系统能够让用户更频繁的访问一个站点，并且总是能为用户推送他想要购买的商品或者阅读的内容。

目前，推送系统都基于推送算法模型为拥有不同需求的用户推送各自感兴趣的内容，推送系统的好坏主要取决于其所采用的推送算法模型的好坏；现阶段，通常采用传统的机器学习方法训练得到推送算法模型，传统的机器学习方法模型有离线和在线两种方式，其中，离线训练方式是将预先收集好的所有的训练样本集中起来同时进行学习，当数据量比较大时其训练时间较长，无法实时调整模型以适应快速变化的业务。与离线训练方式所不同，在线训练方式是利用逐个给定的训练样本训练模型，即当有一个新的训练样本时，则利用该新的训练样本更新模型参数，因此，在线训练方式能够很好地适应高维度以及海量数据，并且能够很好地适应于流数据的业务场景中。

为了减小模型的复杂度，传统的在线学习算法常常在损失函数的基础上增加正则项作为目标函数。当采用L0范数作为正则项时，由于L0范数表示向量元素中非零元素的个数，因而向量元素中零元素越多，L0范数越小，而较多的零元素可以使模型更为稀疏。然而，采用L0范数进行正则化，一般较难求解，为此，可以引入L0范数的最优凸近似L1范数代替L0范数进行正则化。L1范数可以实现模型稀疏，并且相较于L0范数更易求解，因而得到广泛应用。

传统的在线学习算法在损失函数的基础上引入了L1范数作正则项，虽然能够在高维数据上对有效特征进行筛选，从而训练得到稀疏的模型。但是，在更高维数据上，当模型被限制只能保留十分低比例的有效特征时，由于L1范数只是近似L0范数，给模型引入了额外的偏差，在对稀疏度极高的模型进行训练时，传统的在线学习算法所训练出的模型的预测精度将大大降低。

传统的在线训练方式虽然可以在高维数据上学习得到较为稀疏的模型，且能保证较好的泛化性能。但是，在更高维的数据上，对模型进行稀疏时，模型被限制只能保留十分低比例的有效特征，模型的泛化性能就难以得到保障。

发明内容

本申请实施例提供了一种在线训练模型的方法、装置以及相关设备，使得能够保证模型的高稀疏性，并且提高模型的泛化性能。本申请实施例还提供了一种信息推送方法，该方法利用基于上述在线训练模型的方法所训练的模型实现信息推送，以提高信息推送精准度。

有鉴于此，本申请第一方面提供了一种在线训练模型的方法，所述方法包括：

从流式数据中获取训练样本；

根据所述训练样本、历史模型参数和非凸正则项确定模型的目标函数；

确定使所述目标函数最小的当前模型参数，根据所述当前模型参数更新所述模型。

本申请第二方面提供了一种信息推送方法，所述推送方法包括：

获取目标用户的用户特征数据和目标信息的内容特征数据；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于腾讯科技（深圳）有限公司，未经腾讯科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】