[发明专利]一种风控场景下基于深度学习的特征自动化交叉方法在审
申请号: | 202010833103.1 | 申请日: | 2020-08-18 |
公开(公告)号: | CN111967596A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 陈亚娟;张乾;龙泳先;王月月;刘天欣;沙雨濛;何侃 | 申请(专利权)人: | 北京睿知图远科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06Q10/06 |
代理公司: | 北京力量专利代理事务所(特殊普通合伙) 11504 | 代理人: | 姚远方 |
地址: | 101500 北京市密云区鼓楼东大街3号山水*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 场景 基于 深度 学习 特征 自动化 交叉 方法 | ||
本发明公开了一种风控场景下基于深度学习的特征自动化交叉方法,涉及数据处理技术领域,包括以下步骤:S1数据源模块采集用户行为的特征字段X和用户对应的标签字段Y。该风控场景下基于深度学习的特征自动化交叉方法无需人工干预,极大地降低了人力和时间成本,提升了模型开发效率,由于加入了诸多交叉特征模型最终的准确率也显著提升,同时特征交叉与模型训练耦合在一起,可以同时得到训练好的交叉特征和评分模型,最终,本发明不依赖于任何业务场景的先验知识,具有高度的灵活性和可扩展性,可以很好地迁移到其他业务建模场景中。
技术领域
本发明涉及数据处理技术领域,具体为一种风控场景下基于深度学习的特征自动化交叉方法。
背景技术
“数据和特征决定了机器学习的上限,而模型和算法只是逼近了这个上限”被学界和业界奉为圭臬,随着科技和工业化程度的发展,公司很容易地积攒和获取海量的业务数据,传统的逻辑斯蒂回归模型简单易解释,但是特征之间的信息挖掘依赖于大量的人工特征工程,然而从海量的数据中人工地交叉出好的特征是极其耗费人力和时间的,同时存在诸多弊端,例如容易漏选特征造成信息的缺失,交叉出无效特征徒增计算量,依赖于业务经验无法交叉出先验知识之外的特征等,因此如何自动化地交叉出好的特征成为了业界非常热门的研究领域,之前有因子分解机,基于域的因子分解机等,已经在业界被广泛应用,而风控场景下基于深度学习的特征自动化交叉方法至今未曾有过相关研究。
经检索,现有技术中:专利申请号为CN201910961560的专利,公开了一种用于确定机器学习模型的衍生变量的方法,该方法中,在针对机器学习模型的基础变量集中可转移变量集,进而根据基础变量和可转移变量生成多个候选衍生变量,从而确定机器学习模型的目标衍生变量,上述专利中的基于机器学习模型算法存在以下不足,人为干预高,自动化低,信息利用率低。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种风控场景下基于深度学习的特征自动化交叉方法,解决了机器学习模型算法存在人为干预高,自动化低,信息利用率低的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种风控场景下基于深度学习的特征自动化交叉方法包括数据源模块、数据预处理模块、特征交叉与建模模块,包括以下步骤:S1数据源模块采集用户行为的特征字段X和用户对应的标签字段Y;S2数据预处理模块对采集的特征进行缺失值填充;S3通过特征标准化消除量纲的影响将数据压缩到较小的区间、同时对分类型变量进行独热编码便于后续的特征交叉与建模;S4特征交叉与建模模块对预处理好的特征用向量内积和深度神经网络进行低阶特征交叉和深度特征交叉,和原始特征一起输入到最终的模型中进行训练。
进一步地,所述S1中采集的用户数据天然地存在大量缺失值,因此需要将所有的缺失值填充为指定数值,例如0、-1等。
进一步地,所述特征交叉和训练都需要数值型的特征,而采集的用户信息中往往包含了大量字符型的分类特征,如性别、地域等等,因此需要对字符型的特征进行编码,以性别为例,可以将“男”、“女”分别编码为0、1。
进一步地,所述S4中神经网络的输入应该是连续且稠密的,而采集的用户信息通常是高度稀疏的,因此在预处理完原始特征之后需要进行一次embedding,将每个特征映射为一个K维向量,K值可以指定为一个较小的整数,如2、4、8等等,这样我们将稀疏的原始特征矩阵转化为了稠密的特征矩阵Xdense。
进一步地,所述S4中低阶的交叉特征采用FM模型进行学习,所述高阶的交叉特征采用深度前馈神经网络学习。
进一步地,所述FM模型的公式如下所示:
yFM=<ω,x>+<Vi,Vj>xi·xj
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京睿知图远科技有限公司,未经北京睿知图远科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010833103.1/2.html,转载请声明来源钻瓜专利网。