[发明专利]一种基于深度特征融合的点击率预估方法在审

申请号：	202210382800.9	申请日：	2022-04-09
公开（公告）号：	CN114781503A	公开（公告）日：	2022-07-22
发明（设计）人：	石秀金;龚园;夏小玲	申请（专利权）人：	东华大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06Q10/04
代理公司：	北京力量专利代理事务所(特殊普通合伙) 11504	代理人：	刘一霖
地址：	200051 上***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度特征融合点击率预估方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度特征融合的点击率预估方法，其特征在于包括如下步骤：

S1、拿到历史数据，将数据经过热编码后变成由0和1组成的高维稀疏特征，得到基础特征；

S2、对基础特征经过嵌入层进行特征向量构建，构建后的向量作为模型训练输入；

S3、经过浅层模型FmFM和深层模型DenseDNN，同时学习显式和隐式特征交互；

S4、将FmFM模型和DenseDNN网络的结果拼接后，经过Sigmoid函数得到输出结果，用AUC和LogLoss两个指标来判断模型预测的准确率。

2.根据权利要求1所述的基于深度特征融合的点击率预估方法，其特征在于上述步骤S1的具体过程为：拿到历史数据，将数据进行预处理后得到基础特征；从用户的历史点击数据中提取用户数据，并对数据集中缺失的部分进行填充，并对数值特征做归一化处理。

3.根据权利要求2所述的基于深度特征融合的点击率预估方法，其特征在于上述步骤S2的具体过程为：特征向量构建，作为模型训练输入；将基础特征经过one-hot编码后变成稀疏矩阵，通过线性变换，成为一个密集矩阵，用嵌入层学习的参数表征密集矩阵的内在关系；特征向量构建即把独立的向量关联起来，且将数据从高维稀疏变成低维稠密的特征向量。

4.根据权利要求3所述的基于深度特征融合的点击率预估方法，其特征在于上述步骤S3的具体过程为：经过浅层模型FmFM和深层模型DenseDNN，同时学习显式和隐式特征交互得到更多隐含特征；基于低维稠密特征向量，作为模型中特征交互层的输入，得到多元交叉特征，所述特征交互分为两部分：

S31、嵌入向量经过FmFM模型，利用域矩阵的思想来高效地学习显式特征交互；FmFM模型由FwFM模型发展而来，将后者中描述不同域特征之间交互强度的标量替换为一个二维矩阵M，提高了模型的自由度和表达能力，其公式为：

其中，x_i，x_j为第i个特征和第j个特征，v_i，v_j是特征i和特征j的嵌入向量，F(i)，F(j)是特征i和特征j所属的域，M_F(i),F(j)即为特征i和特征j所在域有关的权重矩阵，w_i为权重参数，w₀为偏置项；

FmFM相互作用项的过程，通过交互对(v_i，v_j)和(v_i，v_k)进行计算，且特征i，j，k分别来自3个不同域；分为三个步骤：1)Embedding Lookup：从嵌入表中查找v_i，v_j，v_k三个嵌入向量；2)Transformation：v_i和矩阵M_F(i),F(j)，M_F(i),F(k)分别计算，获得两组对应的中间向量v_i、F(j)和v_i、F(k)；3)Dotproduct：通过简单的点击计算获得最后的交互项；

S32、嵌入向量经过DenseDNN网络用特征融合的方法学习隐式特征交互；DenseDNN将DNN网络每一层的输入变为前面所有层输出之和，其每一层的输出为：

其中xⁱ代表第i层的输出，W⁽ⁿ⁾和bⁿ为训练参数。

5.根据权利要求4所述的基于深度特征融合的点击率预估方法，其特征在于上述步骤S4的具体过程为：得到输出结果，拼接FmFM模型和DenseDNN网络的结果后，经过Sigmoid函数得到输出结果；输出结果并通过二元交叉熵损失函数Logloss以及AUC评判模型精度；

Logloss定义二元交叉熵损失函数，用来评估模型的准确度，通过对所有预期CTR的广告进行排序来评价模型的性能：

其中，N为样本数量，对于第i个样本，y⁽ⁱ⁾为它的真实标签，且y⁽ⁱ⁾∈[0,1]，预测概率为且

AUC的定义为ROC曲线下面区域的面积，取值介于0到1之间，AUC的大小与CTR预估模型性能的优劣呈正相关；在介绍AUC之前，引入混淆矩阵的概念。在混淆矩阵中有真(True)、假(False)、阳性(Positive)、阴性(Negative)这四个概念，且预测正确为真、错误为假，预测类别为1的是阳性、为0的是阴性，其中需要解释的概念如下：

(1)TP：预测为正样本，实际也为正样本；

(2)FP：预测为正样本，实际也为负样本；

(3)FN：预测为负样本，实际也为正样本；

(4)TN：预测为负样本，实际也为负样本；

(5)TPR：即真阳率，为TP和(TP+FN)的比值；

(6)FPR：即假阳率，为FP和(FP+TN)的比值；

AUC的计算步骤为：a)通过混淆矩阵求解真阳率和假阳率的值，得到坐标点对；b)由不同的坐标点对形成的曲线为ROC曲线；c)AUC为ROC曲线下方的面积；

当AUC的值越接近1.0时，说明方法的真实性越高，是接近完美的分类器；AUC的值等于0.5时，证明模型没有预测价值；当AUC的值小于0.5时，证明比随机猜测的效果还差。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东华大学，未经东华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210382800.9/1.html，转载请声明来源钻瓜专利网。