[发明专利]基于用户行为的广告点击率预测方法有效
申请号: | 201810608374.X | 申请日: | 2018-06-13 |
公开(公告)号: | CN108830416B | 公开(公告)日: | 2020-02-18 |
发明(设计)人: | 琚生根;孙界平;李兴国;王婧妍;刘宁宁;张芮;金玉 | 申请(专利权)人: | 四川大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q30/02 |
代理公司: | 成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304 | 代理人: | 何健雄 |
地址: | 610041 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于用户行为的广告点击率预测方法,将ID类特征与其他特征在不同层次上进行联合转换为有意义的数值特征,该特征能降低特征稀疏性和冗余度以及提高特征表达性;同时,为进一步提高特征表达性,本发明利用了GBDT模型进行特征选择与特征组合,利用LR模型来处理高维特征;最后为解决类别不平衡问题,本发明提出了基于K_Means模型的下采样算法。实验过程中,首先对原始特征进行特征提取,然后采用启发式思维进行特征分类,将感性特征输入GBDT模型进行特征组合,最后,将理性特征与组合特征以一定的权值输入LR模型进行广告点击率预测。实验结果表明,本发明算法在RMSE与R2指标上均有改善。 | ||
搜索关键词: | 基于 用户 行为 广告 点击率 预测 方法 | ||
【主权项】:
1.一种基于用户行为的广告点击率预测框架及算法,其特征在于:首先采用基于K_Means模型的下采样算法来解决类别不平衡问题,然后,采用启发式思维对特征进行特征分类,再然后,利用梯度提升树对感性特征进行特征组合,最后,将组合后的特征与理性特征按一定权重输入逻辑回归模型进行广告点击率预测;特征提取:基于实验数据集及实际业务分析,进行特征提取工作,目的是降低特征冗余度和特征稀疏性以及提高特征表达性;主要特征如下:查询相关度:文本特征属于短文本且经过加密处理,同时,广告关键字、广告标题、广告描述互为强相关,所以,本发明采用Dice系数、Jaccard距离、tf_idf来联合计算文本相似度;Dice系数计算公式如公式1所示:其中,comm(t1,t2)表示文本1与文本2的共同部分,len(t1)表示文本1的总词数;Jaccard距离计算公式如公式2所示:其中,comm(t1,t2)表示文本1与文本2的共同部分,union(t1,t2)表示文本1与文本2去重后的总词数;tf_idf计算公式如公式3所示:其中,count(w,t)表示查询词在文本中出现的次数,size(t)表示文本的总词数,tf(w,t)表示词频,idf表示逆文本频率;最终相似度计算公式如公式(4)所示;sim=α*dice+β*Jaccard+λ*tf_idf (4)网站吸引度:网站吸引度是指展示在特定网站上广告的点击率的方差;计算公式如公式(5)所示;其中,表示展示在网站上广告的平均点击率,ctrij表示网站i的广告点击率;广告商宣传力度:广告商宣传力度是指特定广告商所投放广告的点击率方差;计算公式如公式(6)所示;其中,表示广告商所投放广告的平均点击率,ctrij表示网站i的广告点击率;广告位置:广告位置是指广告实际位置;基于数据分析,广告点击率与广告实际位置呈负相关,与广告相对位置呈非相关;广告受众分析:广告具有定向性,即每个广告都有自己的目标群体;本发明将特定广告下点击次数最多的年龄、性别作为广告受众的年龄、性别;广告点击率:广告点击率是指在给定用户与广告时,预测用户点击广告的概率;计算公式如公式7所示;其中,clicks表示第i广告的实际点击次数,impression表示第i广告的总展示次数;基于实际业务分析,理性特征包括用户查询相关性和广告展示位置分,感性广告包括网站吸引度、广告商宣传力度、性别、年龄、受众性别、受众年龄以及广告深度;认为每个用户都是感性与理性的混合体,而感性与理性的占比会随时间地点环境发生变化;为了更加准确地定位用户,本发明将特征分为两个互不相交的特征集合,然后基于用户输入查询词的详细程度来衡量特征集权重;理性特征集权重计算公式如公式8所示;感性特征集权重计算公式如公式9所示;其中,qNumi表示用户i输入的查询词个数,kNumj表示待点击广告j所包含的关键字个数,w1ij表示在给定用户i和待点击广告j时,理性特征集的权重,w2ij表示在给定用户i和待点击广告j时,感性特征集的权重。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810608374.X/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理