[发明专利]一种广告点击率预估模型的建立方法有效
申请号: | 202010106887.8 | 申请日: | 2020-02-20 |
公开(公告)号: | CN111340537B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 吴迪;李佩颖;王欣 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06N3/04;G06N3/08 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 李晓亮;潘迅 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 广告 点击率 预估 模型 建立 方法 | ||
一种广告点击率预估模型的建立方法,属于计算机技术领域,包括四个阶段:数据预处理、中间结果保存、历史数据处理、当前时刻数据训练或测试。其中在数据处理阶段将数据按照时间排序按照用户标签分组,并按照一定的时间间隔分段。在模型训练阶段,将数据按照时间顺序依次输入到所选模型进行训练,并保存训练后的中间结果。在模型测试阶段,对于当前测试数据,按照用户标签和时间间隔向前检索所保留的中间结果,将这些中间结果取出,并加入注意力机制,得到一个新的向量,作为当前训练数据的输入中的一部分输入到模型中进行训练,最终的输出作为预测值。本发明适用于解决考虑特征组合的同时,兼顾用户的行为序列信息的点击率预估问题。
技术领域
本发明属于计算机技术领域,涉及一种广告点击率预估的模型建立方法。
背景技术
在互联网平台展示广告的过程中,平台需要根据广告的竞价和点击率选择如何将广告呈现给用户,广告收入占据互联网公司收入的很大一部分。
特征组合在广告点击率预估技术中占据重要地位,线性模型LR需要大量的特征工程,造成人力和时间的消耗,深宽度模型融合的方式一定程度上解决了高阶特征的组合问题。
用户行为序列作为一项重要的信息被越来越多的研究人员重视。如果能在考虑到特征组合的同时兼顾用户的行为序列信息,将会给点击率的预估准确度带来一定的提升。
本发明得到国家自然科学基金(NO.61370201)的赞助。
发明内容
针对现有技术存在的问题,本发明提供一种广告点击率模型的建立方法,目的是在考虑特征组合方法的同时,能够将用户的行为序列信息加入到广告点击率预估的任务中,还能考虑到用户的各个历史行为对当前行为影响程度。该方法通过保存训练模型的中间输出(本发明使用DeepFM模型的最后一层输出),再根据当前训练数据的用户识别号按照一定的时间间隔检索,得到当前训练数据前的历史数据对应的模型的输出,之后将检索到的历史数据加入一层attention进行训练,将训练的最终结果作为当前训练数据的一部分输入到所使用的模型中进行训练,将训练的结果作为预测的最终结果。与直接使用历史数据dense编码后的特征作为用户行为序列信息作为当前数据输入的方法不同,本发明使用历史数据经过模型训练后的中间结果作为当前数据输入的一部分来学习用户行为序列信息。
为了达到上述目的,本发明采用的技术方案为:
一种广告点击率预估模型的建立方法,能够兼顾特征组合和用户行为序列在广告点击率预估中的应用,包括数据预处理、中间结果保存、历史数据处理、当前数据训练或测试。首先,将数据处理成按照用户标签分组,时间顺序排列,时间间隔分段的格式。其次,将数据按照时间先后模型依次输入到所用模型中,保存该模型最后一层的输出,并将此输出与对应训练数据的标签拼接得到中间结果。再次,根据当前训练数据的用户标签,向前检索一定时间段的历史训练数据,将历史数据训练过后的中间结果使用attention机制进行处理,得到一个新的向量,若历史数据为空,则将向量初始化为0。最后,将上述得到的向量作为当前时刻数据输入的一部分,输入到模型中,获得最终的训练或预测结果。具体包括以下步骤:
步骤一:数据预处理:对全部训练数据按照用户识别号分组并按照用户浏览数据的时间先后顺序排列,得到最终的训练数据,其中训练数据由多个特征组成,其中每个特征具有多个类别。
步骤二:中间结果保存:将训练数据按照时间顺序依次输入到训练所使用的广告点击率预估模型中,并保留每条训练数据对应模型最后一层的输出,作为训练数据经过模型训练后的中间结果,如图2所示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010106887.8/2.html,转载请声明来源钻瓜专利网。