[发明专利]一种基于多层次特征交互的点击率预测方法及装置在审
申请号: | 202111370164.X | 申请日: | 2021-11-18 |
公开(公告)号: | CN114154565A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 王粉花;郑嘉伟;严由齐;林超 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波;付忠林 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多层次 特征 交互 点击率 预测 方法 装置 | ||
本发明公开了一种基于多层次特征交互的点击率预测方法及装置,该方法包括:采集用户的特征数据和历史行为信息,构建训练数据集;在xDeepFM模型的特征嵌入层与全连接层之间加入二阶特征交互层,以对xDeepFM模型进行改进,并将改进后的xDeepFM模型作为点击率预测模型;采用训练数据集对点击率预测模型进行训练;利用训练好的点击率预测模型对待预测的点击率进行预测,得到预测结果。本发明能够提高点击率预测精度,并减少模型训练时间。
技术领域
本发明涉及推荐算法、点击率预测技术领域,特别涉及一种基于多层次特征交互的点击率预测方法及装置。
背景技术
点击率(Click-throughRate,CTR)预测在推荐系统和广告系统中都是最重要的组成模块,在推荐系统中,其目标是最大化点击次数,在返回给用户的界面上,物品的顺序应该根据CTR预测进行排名;在广告系统中,最主要的目标是提高广告收入,广告的投放也应根据广告的CTR预测进行排名。所以,正确预测CTR至关重要。
用户点击行为中隐含的特征交互对CTR预测非常重要,特征工程起到了决定性的作用。传统的机器学习算法想要达到理想效果必须将所有的输入特征都进行充分利用。但是,直接使用原始数据很难达到最佳的效果。优秀的数据科学家对特征之间的组合非常精准,在模型的建立中发挥了关键作用,但是,这个过程要付出高昂的成本,因为需要大量的工程数据以及相关领域丰富的知识才能达到良好的效果。同时,这些方案缺乏泛化能力,在其他领域很难推广。因此,现有的CTR预测模型对低阶特征信息利用不充分,且训练参数过多。
发明内容
本发明提供了一种基于多层次特征交互的点击率预测方法及装置,以解决现有的CTR预测模型对低阶特征信息利用不充分,且训练参数过多的技术问题。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供了一种基于多层次特征交互的点击率预测方法,包括:
采集用户的特征数据和历史行为信息,构建训练数据集;
在xDeepFM模型的特征嵌入层与全连接层之间加入二阶特征交互层,以对xDeepFM模型进行改进,并将改进后的xDeepFM模型作为点击率预测模型;
采用所述训练数据集对所述点击率预测模型进行训练;
利用训练好的点击率预测模型对待预测的点击率进行预测,得到预测结果。
进一步地,采集用户的特征数据和历史行为信息,构建训练数据集,包括:
采集用户的特征数据和历史行为信息;其中,所述特征数据包括:用户年龄、用户性别、用户使用的手机型号以及用户位置信息;所述历史行为信息包括:用户的浏览时长和用户是否点击广告;
对采集的特征数据和历史行为信息进行预处理,分别提取连续特征和分类特征,并将连续特征置于分类特征之前,以构建训练数据集。
进一步地,所述点击率预测模型包括特征嵌入层、压缩交互网络、二阶特征交互层、全连接层以及预测层;其中,
所述特征嵌入层用于将高维稀疏特征向量转换为低维稠密特征向量,并将转换出的特征向量输入所述压缩交互网络和所述二阶特征交互层;
所述二阶特征交互层用于将n个域中的向量两两对位相乘,得到n*(n-1)/2个向量,并将这些向量相加得到一个低维的特征向量ye,计算方式如下:
其中,表示两个向量的元素积,ei表示第i个域的嵌入向量,ej表示第j个域的嵌入向量,vi表示第i个域的权重,vj表示第j个域的权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111370164.X/2.html,转载请声明来源钻瓜专利网。