[发明专利]一种基于决策树方法的特征衍生系统及可读存储介质在审
申请号: | 202010711594.2 | 申请日: | 2020-07-22 |
公开(公告)号: | CN111861750A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 陈建;龙泳先;何小雄;王月月;徐撼亚;何侃;廖博帆 | 申请(专利权)人: | 北京睿知图远科技有限公司 |
主分类号: | G06Q40/04 | 分类号: | G06Q40/04;G06Q40/06;G06Q10/06;G06F16/215;G06F17/15 |
代理公司: | 北京力量专利代理事务所(特殊普通合伙) 11504 | 代理人: | 姚远方 |
地址: | 101500 北京市密云区鼓楼东大街3号山水*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 决策树 方法 特征 衍生 系统 可读 存储 介质 | ||
本发明涉及数据处理技术领域,具体涉及一种基于决策树方法的特征衍生系统及可读存储介质,包括数据源模块、数据预处理模块、数据建模模块、特征衍生模块和验证模块,使用时,利用数据源模块获取相关数据,经过数据预处理模块处理之后进入到数据建模模块,观察初始数据集的整体表现效果,并利用特征衍生模块来寻找具有潜在非线性交叉关系的特征进行组合,构建新的特征,加入到原始特征集中,通过验证模块来对新生变量进行稳定性和可用性方面的验证,最终寻找到稳定可用的衍生变量,本发明利用已有数据集和特征来衍生出新的稳定且有较好可解释性的特征来提升模型效果,具有很强市场应用前景。
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于决策树方法的特征衍生系统及可读存储介质。
背景技术
随着近几年个人信贷业务的迅猛发展,政策环境的日新月异,市场竞争的不断加剧,客户境况的瞬息万变,利用大数据方法来对信贷风险进行管理在当前社会环境下显得尤为重要。当前在技术层面遇到的难点主要在于寻找稳定具有可解释性的有用特征。有用的特征才能决定模型的最高效果,各种方法只能在理论层面逼近这个上限,而最新的诸如深度学习的一些方法的痛点在于这类方法的“黑匣”特点使其难以获得直观的容易理解的业务含义,即使这类方法能够在某种数据上提升模型效果,改变数据集或者业务环境之后,模型效果的变化可能就不尽如人意。因此主要的思考方向还在于利用已有数据集和特征来衍生出新的稳定且有较好可解释性的特征来提升模型效果。
经检索,中国专利申请号为201711309287.6的专利,公开了一种基于决策树的大数据分析方法。本发明基于决策树的大数据分析方法,通过建立决策树,并通过聚类的方法将决策树的层级关系进行明确,利用决策树和信息熵相结合的方法,使得大数据可以从多个层面上得到分析,提高了分析结果的准确度,并且对于新加入的数据,可以直接带入决策树中,分析速度大幅提高,进而提高了政府的判断能力和运作效率。上述专利中的基于决策树的大数据分析方法存在以下不足:无法针对个人信贷业务的各种场景应用,完成依据决策树方法的变量特征衍生。
发明内容
针对现有技术的不足,本发明公开了一种基于决策树方法的特征衍生系统及可读存储介质,用于解决上述现有技术中存在的问题。
本发明通过以下技术方案予以实现:
第一方面,本发明公开一种基于决策树方法的特征衍生系统,其特征在于,包括数据源模块、数据预处理模块、数据建模模块、特征衍生模块和验证模块,使用时,利用数据源模块获取相关数据,经过数据预处理模块处理之后进入到数据建模模块,观察初始数据集的整体表现效果,并利用特征衍生模块来寻找具有潜在非线性交叉关系的特征进行组合,构建新的特征,加入到原始特征集中,通过验证模块来对新生变量进行稳定性和可用性方面的验证,最终寻找到稳定可用的衍生变量。
更进一步的,所述数据源模块包括数据采集器、券商业务数据、合作方数据和第三方数据市场;
所述数据采集器是在PC端或者移动端,通过API,SDK,JS等软件方式采集到的客户行为信息;
所述券商业务数据有证券交易所以公开、集中的方式进行的集中竞价交易,大宗交易,协议转让,盘后交易等买卖的集中交易数据信息,用户在券商的线上投资平台,投资分析决策系统等投资系统上进行买卖的投资系统数据;
所述合作方数据是与软件开发方存在合作关系的机构所提供的反应客户行为偏好,消费状况等相关情况的数据信息,包括公共号数据,电商站数据和媒体数据;
所述第三方数据市场包括黑名单数据提供机构、电信消费数据提供机构、金融消费数据提供机构或其他数据提供机构。
更进一步的,所述数据预处理包括数据清理技术、数据归约技术、数据集成技术和数据变换技术;
所述数据清理技术清除数据中的噪声,纠正不一致;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京睿知图远科技有限公司,未经北京睿知图远科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010711594.2/2.html,转载请声明来源钻瓜专利网。