[发明专利]一种基于卷积网络进行网络访问数据进行处理的方法在审
申请号: | 201810022744.1 | 申请日: | 2018-01-10 |
公开(公告)号: | CN108280511A | 公开(公告)日: | 2018-07-13 |
发明(设计)人: | 郭威 | 申请(专利权)人: | 北京掌阔移动传媒科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100025 北京市朝阳区惠河南*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 矩阵 卷积神经网络 网络访问数据 转换数据 分类器 高维 卷积 网络 方法使用 后续处理 输出向量 网络处理 向量处理 用户客户 用户数据 低维 向量 信息量 送入 展示 广告 | ||
本发明公开了一种基于卷积网络进行网络访问数据进行处理的方法,包括:步骤1)训练卷积神经网络模型;步骤2)获取广告在用户客户端的展示、点击和转换数据;步骤3)对展示、点击和转换数据进行编码,并针对每一条用户数据,生成对应的矩阵张量;步骤4)将以上矩阵张量送入步骤1)中训练好的卷积神经网络中,得到其输出向量。该方法使用cnn网络处理,将其直接作为高维度向量处理,直接将一次输入的向量经过cnn处理后在传入到后续分类器做后续处理。这样解决了后续分类器使用dummy变量过多的问题。而是通过cnn网络将高维度的数据降为低维度的数据,同时不减少信息量。
技术领域
本发明属于一种基于卷积网络进行网络访问数据进行处理的方法。
背景技术
在进行数据分类之前的数据处理中,分类变量和连续变量不同,无法作为一个变量进行数据的分析处理,需要将一个分类变量变成多个dummy变量例如性别变量则变为(0,1)这样表示,同时在使用该变量时候,需要产生2个dummy变量,则最终的分类器表示也是基于dummy变量的。当分类变量的值比较多的时候,则计算量会暴增。因此出现了许多的处理方式。例如使用hash方式。
该种方法的原理是将一个变量表示为(0,1,0,0,0,。。。。)后使用hash函数,将所有的数据维度都hash处理,生成一个固定维度的向量,这种方法具有以下的缺点:
1,对字段值的处理(分段,聚合),对字段间的关系,都需要人工干预太多,然后在进行分析,主观性太强,且由于字段比较多,取值比较复杂,导致很多其他的字段无法发挥本来的作用,且干预字段过度发挥效果。
2,如果使用hash方法,则会损失掉一些有效的信息,虽然使用方便,但是最终分类效果会有影响。
发明内容
本发明所要解决的技术问题是提供一种基于卷积网络进行网络访问数据进行处理的方法。
本发明解决上述技术问题所采取的技术方案如下:
一种基于卷积网络进行网络访问数据进行处理的方法,包括:步骤1)训练卷积神经网络模型,包括:
获取样本数据,该样本数据中包括:用户的性别、客户端ID、广告ID
以及访问时间;
按照以下的卷积公式进行数据处理:
·
x(t)和h(t)函数是卷积的变量,p是积分变量,t是使函数h(-p)位移的量,星号*表示卷积;针对本文,卷积矩阵使用的是一个9*9的一个矩阵,对输入数据进行滑动求卷积。
这里Mj表示选择的输入maps的集合,每一个输出map会给一个额外的偏置b,但是对于一个特定的输出map,卷积每个输入maps的卷积核是不一样的。也就是说,如果输出特征map j和输出特征map k都是从输入map i中卷积求和得到,那么对应的卷积核是不一样的。
选择一个y(t)包含的数据编码信息量最大的卷积公式,以此作为训练好的卷积神经网络模型;
步骤2)获取广告在用户客户端的展示、点击和转换数据;
步骤3)对展示、点击和转换数据进行编码,并针对每一条用户数据,生成对应的矩阵张量;
步骤4)将以上矩阵张量送入步骤1)中训练好的卷积神经网络中,得到其输出向量。
其中,步骤3)中,所述矩阵张量中,包括:用户的性别、客户端ID、广告、ID以及访问时间,其格式选择:{(a广告,偏好大小),(b广告,偏好大小)....}。
其中,步骤4)之后,还包括:将该向量作为输入,送入分类器中,最终得到用户画像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京掌阔移动传媒科技有限公司,未经北京掌阔移动传媒科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810022744.1/2.html,转载请声明来源钻瓜专利网。