[发明专利]一种基于深度特征融合的点击率预估方法在审

专利信息
申请号: 202210382800.9 申请日: 2022-04-09
公开(公告)号: CN114781503A 公开(公告)日: 2022-07-22
发明(设计)人: 石秀金;龚园;夏小玲 申请(专利权)人: 东华大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06Q10/04
代理公司: 北京力量专利代理事务所(特殊普通合伙) 11504 代理人: 刘一霖
地址: 200051 上*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 特征 融合 点击率 预估 方法
【权利要求书】:

1.一种基于深度特征融合的点击率预估方法,其特征在于包括如下步骤:

S1、拿到历史数据,将数据经过热编码后变成由0和1组成的高维稀疏特征,得到基础特征;

S2、对基础特征经过嵌入层进行特征向量构建,构建后的向量作为模型训练输入;

S3、经过浅层模型FmFM和深层模型DenseDNN,同时学习显式和隐式特征交互;

S4、将FmFM模型和DenseDNN网络的结果拼接后,经过Sigmoid函数得到输出结果,用AUC和LogLoss两个指标来判断模型预测的准确率。

2.根据权利要求1所述的基于深度特征融合的点击率预估方法,其特征在于上述步骤S1的具体过程为:拿到历史数据,将数据进行预处理后得到基础特征;从用户的历史点击数据中提取用户数据,并对数据集中缺失的部分进行填充,并对数值特征做归一化处理。

3.根据权利要求2所述的基于深度特征融合的点击率预估方法,其特征在于上述步骤S2的具体过程为:特征向量构建,作为模型训练输入;将基础特征经过one-hot编码后变成稀疏矩阵,通过线性变换,成为一个密集矩阵,用嵌入层学习的参数表征密集矩阵的内在关系;特征向量构建即把独立的向量关联起来,且将数据从高维稀疏变成低维稠密的特征向量。

4.根据权利要求3所述的基于深度特征融合的点击率预估方法,其特征在于上述步骤S3的具体过程为:经过浅层模型FmFM和深层模型DenseDNN,同时学习显式和隐式特征交互得到更多隐含特征;基于低维稠密特征向量,作为模型中特征交互层的输入,得到多元交叉特征,所述特征交互分为两部分:

S31、嵌入向量经过FmFM模型,利用域矩阵的思想来高效地学习显式特征交互;FmFM模型由FwFM模型发展而来,将后者中描述不同域特征之间交互强度的标量替换为一个二维矩阵M,提高了模型的自由度和表达能力,其公式为:

其中,xi,xj为第i个特征和第j个特征,vi,vj是特征i和特征j的嵌入向量,F(i),F(j)是特征i和特征j所属的域,MF(i),F(j)即为特征i和特征j所在域有关的权重矩阵,wi为权重参数,w0为偏置项;

FmFM相互作用项的过程,通过交互对(vi,vj)和(vi,vk)进行计算,且特征i,j,k分别来自3个不同域;分为三个步骤:1)Embedding Lookup:从嵌入表中查找vi,vj,vk三个嵌入向量;2)Transformation:vi和矩阵MF(i),F(j),MF(i),F(k)分别计算,获得两组对应的中间向量vi、F(j)和vi、F(k);3)Dotproduct:通过简单的点击计算获得最后的交互项;

S32、嵌入向量经过DenseDNN网络用特征融合的方法学习隐式特征交互;DenseDNN将DNN网络每一层的输入变为前面所有层输出之和,其每一层的输出为:

其中xi代表第i层的输出,W(n)和bn为训练参数。

5.根据权利要求4所述的基于深度特征融合的点击率预估方法,其特征在于上述步骤S4的具体过程为:得到输出结果,拼接FmFM模型和DenseDNN网络的结果后,经过Sigmoid函数得到输出结果;输出结果并通过二元交叉熵损失函数Logloss以及AUC评判模型精度;

Logloss定义二元交叉熵损失函数,用来评估模型的准确度,通过对所有预期CTR的广告进行排序来评价模型的性能:

其中,N为样本数量,对于第i个样本,y(i)为它的真实标签,且y(i)∈[0,1],预测概率为且

AUC的定义为ROC曲线下面区域的面积,取值介于0到1之间,AUC的大小与CTR预估模型性能的优劣呈正相关;在介绍AUC之前,引入混淆矩阵的概念。在混淆矩阵中有真(True)、假(False)、阳性(Positive)、阴性(Negative)这四个概念,且预测正确为真、错误为假,预测类别为1的是阳性、为0的是阴性,其中需要解释的概念如下:

(1)TP:预测为正样本,实际也为正样本;

(2)FP:预测为正样本,实际也为负样本;

(3)FN:预测为负样本,实际也为正样本;

(4)TN:预测为负样本,实际也为负样本;

(5)TPR:即真阳率,为TP和(TP+FN)的比值;

(6)FPR:即假阳率,为FP和(FP+TN)的比值;

AUC的计算步骤为:a)通过混淆矩阵求解真阳率和假阳率的值,得到坐标点对;b)由不同的坐标点对形成的曲线为ROC曲线;c)AUC为ROC曲线下方的面积;

当AUC的值越接近1.0时,说明方法的真实性越高,是接近完美的分类器;AUC的值等于0.5时,证明模型没有预测价值;当AUC的值小于0.5时,证明比随机猜测的效果还差。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210382800.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top