[发明专利]一种基于决策树方法的特征衍生系统及可读存储介质在审

专利信息
申请号: 202010711594.2 申请日: 2020-07-22
公开(公告)号: CN111861750A 公开(公告)日: 2020-10-30
发明(设计)人: 陈建;龙泳先;何小雄;王月月;徐撼亚;何侃;廖博帆 申请(专利权)人: 北京睿知图远科技有限公司
主分类号: G06Q40/04 分类号: G06Q40/04;G06Q40/06;G06Q10/06;G06F16/215;G06F17/15
代理公司: 北京力量专利代理事务所(特殊普通合伙) 11504 代理人: 姚远方
地址: 101500 北京市密云区鼓楼东大街3号山水*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 决策树 方法 特征 衍生 系统 可读 存储 介质
【权利要求书】:

1.一种基于决策树方法的特征衍生系统,其特征在于,包括数据源模块、数据预处理模块、数据建模模块、特征衍生模块和验证模块,使用时,利用数据源模块获取相关数据,经过数据预处理模块处理之后进入到数据建模模块,观察初始数据集的整体表现效果,并利用特征衍生模块来寻找具有潜在非线性交叉关系的特征进行组合,构建新的特征,加入到原始特征集中,通过验证模块来对新生变量进行稳定性和可用性方面的验证,最终寻找到稳定可用的衍生变量。

2.根据权利要求1所述的基于决策树方法的特征衍生系统,其特征在于,所述数据源模块包括数据采集器、券商业务数据、合作方数据和第三方数据市场;

所述数据采集器是在PC端或者移动端,通过API,SDK,JS等软件方式采集到的客户行为信息;

所述券商业务数据有证券交易所以公开、集中的方式进行的集中竞价交易,大宗交易,协议转让,盘后交易等买卖的集中交易数据信息,用户在券商的线上投资平台,投资分析决策系统等投资系统上进行买卖的投资系统数据;

所述合作方数据是与软件开发方存在合作关系的机构所提供的反应客户行为偏好,消费状况等相关情况的数据信息,包括公共号数据,电商站数据和媒体数据;

所述第三方数据市场包括黑名单数据提供机构、电信消费数据提供机构、金融消费数据提供机构或其他数据提供机构。

3.根据权利要求1所述的基于决策树方法的特征衍生系统,其特征在于,所述数据预处理包括数据清理技术、数据归约技术、数据集成技术和数据变换技术;

所述数据清理技术清除数据中的噪声,纠正不一致;

所述数据归约技术通过如狙击、删除冗余特征或聚类来降低数据的规模;

所述数据集成技术将数据由多个数据源合并成一个一致的数据存储;

所述数据变换技术把数据压缩到较小的区间。

4.根据权利要求1所述的基于决策树方法的特征衍生系统,其特征在于,所述数据建模模块是利用logistic回归建立数学模型用于进行客户风险预测,其中,

所述logistic回归中w和b是待求参数,logistic回归通过函数L将w×x+b对应一个隐状态p,p=(w×x+b),然后根据p与1-p的大小决定因变量的值,如果L是logistic函数,就是logistic回归;logistic回归中的L函数使用sigmoid函数

逻辑回归的损失函数为:

L(y1,y2)=-(y2log(y1))+(1-y2)log(1-y1)

定义代价函数m个训练样本的损失函数的平均值;

衡量预测结果与真实结果之间的平均错误代价,优化的目标是最小化代价函数J(w,b),将代价函数最小就能达到使得模型最优的效果,对代价函数的最优化则是通过梯度下降法实现。

5.根据权利要求4所述的基于决策树方法的特征衍生系统,其特征在于,所述梯度下降法中,w,b的更新方式为

其中α为学习率learning-rate表示移动步长,梯度为当前点的斜率,指定了移动方向,梯度下降法是为了寻找极小值,因此是朝梯度的负方向移动,用图像表示为图中曲线为代价函数J,横坐标为w或b,当梯度为正时,经过运算,w朝左更新,靠近曲线的最低点;当梯度为负时,经过运算,w朝右更新,靠近曲线的最低点,直到梯度为0时,到达最小值,得到最优参数w,b使J实现最小值。

6.根据权利要求1所述的基于决策树方法的特征衍生系统,其特征在于,所述特征衍生模块通过决策树方法来对两两交叉的特征计算与通过logistic回归得到的评价指标进行比对,若前者有明显提升,则推测这两个特征可能具有潜在的交叉关系;所述决策树方法用于捕捉变量或特征之间的非线性关系。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京睿知图远科技有限公司,未经北京睿知图远科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010711594.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top