[发明专利]一种风控场景下基于深度学习的特征自动化交叉方法在审
申请号: | 202010833103.1 | 申请日: | 2020-08-18 |
公开(公告)号: | CN111967596A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 陈亚娟;张乾;龙泳先;王月月;刘天欣;沙雨濛;何侃 | 申请(专利权)人: | 北京睿知图远科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06Q10/06 |
代理公司: | 北京力量专利代理事务所(特殊普通合伙) 11504 | 代理人: | 姚远方 |
地址: | 101500 北京市密云区鼓楼东大街3号山水*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 场景 基于 深度 学习 特征 自动化 交叉 方法 | ||
1.一种风控场景下基于深度学习的特征自动化交叉方法,包括数据源模块、数据预处理模块、特征交叉与建模模块,其特征在于,包括以下步骤:
S1数据源模块采集用户行为的特征字段X和用户对应的标签字段Y;
S2数据预处理模块对采集的特征进行缺失值填充;
S3通过特征标准化消除量纲的影响将数据压缩到较小的区间、同时对分类型变量进行独热编码便于后续的特征交叉与建模;
S4特征交叉与建模模块对预处理好的特征用向量内积和深度神经网络进行低阶特征交叉和深度特征交叉,和原始特征一起输入到最终的模型中进行训练。
2.根据权利要求1所述的一种风控场景下基于深度学习的特征自动化交叉方法,其特征在于:所述S1中采集的用户数据天然地存在大量缺失值,因此需要将所有的缺失值填充为指定数值,例如0、-1等。
3.根据权利要求1所述的一种风控场景下基于深度学习的特征自动化交叉方法,其特征在于:所述特征交叉和训练都需要数值型的特征,而采集的用户信息中往往包含了大量字符型的分类特征,如性别、地域等等,因此需要对字符型的特征进行编码,以性别为例,可以将“男”、“女”分别编码为0、1。
4.根据权利要求1所述的一种风控场景下基于深度学习的特征自动化交叉方法,其特征在于:所述S4中神经网络的输入应该是连续且稠密的,而采集的用户信息通常是高度稀疏的,因此在预处理完原始特征之后需要进行一次embedding,将每个特征映射为一个K维向量,K值可以指定为一个较小的整数,如2、4、8等等,这样我们将稀疏的原始特征矩阵转化为了稠密的特征矩阵Xdense。
5.根据权利要求1所述的一种风控场景下基于深度学习的特征自动化交叉方法,其特征在于:所述S4中低阶的交叉特征采用FM模型进行学习,所述高阶的交叉特征采用深度前馈神经网络学习。
6.根据权利要求5所述的一种风控场景下基于深度学习的特征自动化交叉方法,其特征在于:所述FM模型的公式如下所示:
yFM=<ω,x>+<Vi,Vj>xi·xj
其中第一部分<ω,x>是原始特征的线性组合,也就是常用的逻辑斯蒂回归模型,第二部分中隐向量Vi代表之前所述的特征xi对应的K维隐向量,隐向量的内积<Vi,Vj>作为二阶交叉特征的权重系数,高阶的交叉特征由DNN模型得到,假设神经网络层数为H,H通常设置取2-5的整数,第l层的神经网络输出为:
a(l+1)=σ(W(l)·a(l)+b(l))
其中最初的输入a(l)为稠密的特征矩阵Xdense,W(l)和b(l)为随机初始化的第l层的神经网络参数。
7.根据权利要求6所述的一种风控场景下基于深度学习的特征自动化交叉方法,其特征在于:所述DNN模型的最终输出如下所示:
yDNN=σ(W|H|+1·a|H|+b|H|+1)
其中σ为神经网络的激活函数sigmoid,将模型输出结果映射到(0,1)之间;
两个模型联合训练,最终得到模型的输出为:
8.根据权利要求7所述的一种风控场景下基于深度学习的特征自动化交叉方法,其特征在于:所述FM模型和DNN模型共用同一个embedding层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京睿知图远科技有限公司,未经北京睿知图远科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010833103.1/1.html,转载请声明来源钻瓜专利网。