[发明专利]基于FM算法的CTR预估方法及系统有效
申请号: | 201810599540.4 | 申请日: | 2018-06-12 |
公开(公告)号: | CN108960293B | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 张震;吕传成 | 申请(专利权)人: | 玩咖欢聚文化传媒(北京)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q30/02 |
代理公司: | 北京酷爱智慧知识产权代理有限公司 11514 | 代理人: | 张绍磊 |
地址: | 100101 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 fm 算法 ctr 预估 方法 系统 | ||
本发明提供的基于FM算法的CTR预估方法及系统,该方法在Spark集群对ml包实现FM模型扩展,并对FM模型做降维优化,得到准线性模型;选取待测环境下不同的特征组合,对准线性模型进行模型训练;对不同特征组合的模型训练结果做A/B Test,选取效果最好的特征组合和训练后的准线性模型作为最佳模型,并在HDFS中做持久化;调用最佳模型的准线性模型,根据最佳模型的特征组合选取待测环境下的特征,将选取的特征传入调用的准线性模型中计算,得到CTR预估结果。通过FM模型能自动学习高阶属性的权值,不用通过人工的方式选取特征来做交叉,考虑特征之间的关系,增强了模型的泛化能力,并且适合处理稀疏数据,能够用于对时间要求较高的计算广告方向的CTR预估。
技术领域
本发明属于计算机技术领域,具体涉及基于FM算法的CTR预估方法及系统。
背景技术
CTR(Click-Through-Rate)即点击通过率,是互联网广告常用的术语,指网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击到达率,即该广告的实际点击次数除以广告的展现量。CTR预估是互联网主流应用(广告、推荐、搜索等)中的关键技术环节,预估准确性直接影响了互联网产品的用户体验以及收入。在广告行业中,广告点击率预估是程序化广告交易框架的非常重要的组件,点击率预估主要有两大指标:
1.排序指标。排序指标是最基本的指标,排序的好坏决定了我们有没有能力把最合适的广告找出来去呈现给最合适的用户以获取最佳的商业价值。
2.数值指标。数值指标是进一步的指标,是竞价环节进一步优化的基础,该指标由广告投放端决定。如果我们对CTR普遍低估,我们出价会相对保守,从而使得预算花不出去或是花得太慢,从而无法达到广告主的预算;如果我们对CTR普遍高估,我们的出价会相对激进,从而导致CPC太高而达不到广告主预期的效果。
业界针对CTR预估问题大量使用的是广义线性模型LR(Logistic Regression,逻辑回归)+人工特征工程。LR使用了Logit变换将函数值映射到0-1区间,映射后的函数值就是CTR的预估值。LR作为线性模型很容易并行化,可以轻松的处理上亿条训练样本,性能较高。但这种解法存在天然的不足,由于线性模型的学习能力有限,需要引入大量的领域知识来人工设计特征以及特征之间的交叉组合来间接补充算法的非线性学习能力,非常消耗人力和机器资源,且需要大量的经验积累,在不同领域迁移后难以保证预测的效果。
另外,目前业界也有一些效果不错的非线性模型不断被提出来,并被工程实践且取得不错效果,但这些模型都或多或少存在一些不足。比如Kernel方法,因为复杂度太高而不易实现;比如Tree based方法,这个是由Facebook团队在2014年首先提出,有效地解决了LR模型的特征组合问题,但缺点就是仍然是对历史行为的记忆,缺乏推广性。深度神经网络非线性拟合能力足够强,但面对广告这样的大规模工业级稀疏数据,适合数据规律的、具备推广性的网络结构业界依然在探索中,尤其是要做到端到端规模化上线,还需要更多的探索。
发明内容
针对现有技术中的缺陷,本发明提供基于FM算法的CTR预估方法及系统,不用通过人工的方式选取特征来做交叉,能够用于对时间要求较高的计算广告方向的CTR预估。
第一方面,一种基于FM算法的CTR预估方法,包括:
在Spark集群对ml包实现FM模型扩展,并对FM模型做降维优化,得到准线性模型;
选取待测环境下不同的特征组合,对准线性模型进行模型训练;
对不同特征组合的模型训练结果做A/B Test,选取效果最好的特征组合和训练后的准线性模型作为最佳模型,并在HDFS中做持久化;
调用最佳模型的准线性模型,根据最佳模型的特征组合选取待测环境下的特征,将选取的特征传入调用的准线性模型中计算,得到CTR预估结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于玩咖欢聚文化传媒(北京)有限公司,未经玩咖欢聚文化传媒(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810599540.4/2.html,转载请声明来源钻瓜专利网。