[发明专利]一种数据特征重要性的分析方法及系统在审
申请号: | 202010464925.7 | 申请日: | 2020-05-28 |
公开(公告)号: | CN111612624A | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 吴凌坤 | 申请(专利权)人: | 深圳博普科技有限公司 |
主分类号: | G06Q40/04 | 分类号: | G06Q40/04;G06Q10/06;G06N3/00 |
代理公司: | 深圳市智胜联合知识产权代理有限公司 44368 | 代理人: | 齐文剑 |
地址: | 518000 广东省深圳市福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 特征 重要性 分析 方法 系统 | ||
本发明实施例提供了一种数据特征重要性的分析方法及系统,其中一种数据特征重要性的分析方法包括:获取债券风险评估所需的债券样本,并标记出债券样本中样本点的时间粒度,将其作为原始数据集;对所述原始数据集进行预处理,获取均衡数据集;构建用于分析数据特征重要性的随机森林模型;将所述均衡数据集输入进所述随机森林中进行计算,分析出各个数据特征的重要性排名。在收集了与债券风险评估有关的原始数据集后,通过预处理对原始数据集进行数据均衡化,以解决因数据中正负样本比例不均,而导致无法对数据特征进行有效分析的问题,并且采用随机森林算法对均衡化后的数据进行相应的数据特征分析,以找出比经由传统评估方法总结下来的用于评估债券风险所需的更加科学和准确的相关数据特征。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据特征重要性的分析方法及系统。
背景技术
近两年来,随着政策的变更债券违约事件频繁发生,且可以预见债券违约将会成为常见的风险事件。
而现在对债券进行风险评估的传统方式,是由人工对评估对象的经营状况、财务状况以及所属行业行情等相关数据进行收集,并通过总结得来的经验,对这些数据中的数据特征进行分析,从而评估出债券的风险性。
但是由于近几年政策变更频繁,导致出现了很多过去没有或甚少出现过的债券风险案例,这使得根据人工总结下来的,用来分析债券风险性的数据特征变得不再可靠。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据特征重要性的分析方法和相应的一种数据特征重要性的分析系统。
为了解决上述问题,本发明实施例公开了一种数据特征重要性的分析方法,包括:
获取债券风险评估所需的债券样本,并标记出债券样本中样本点的时间粒度,将其作为原始数据集;
对所述原始数据集进行预处理,获取均衡数据集;
构建用于分析数据特征重要性的随机森林模型;
将所述均衡数据集输入进所述随机森林中进行计算,分析出各个数据特征的重要性排名。
进一步地,所述债券风险评估所需的债券样本,具体为:
所述债券样本的样本点以季度为时间粒度;
所述债券样本的样本点,具体为:
按照所述样本点所对应的债券在季度中以是否发生过违约情况或重大风险事件为标准,从而标记出正负样本。
进一步地,所述正负样本,具体为:
当此债券在季度中发生过违约情况或重大风险事件时,标记为负样本;
当此债券在季度中未发生过违约情况或重大风险事件时,标记为正样本。
进一步地,所述对所述原始数据集进行预处理包括欠采样和过采样两种方法。
进一步地,所述随机森林模型,具体为:
利用bootstrap抽样方法从经过所述预处理后的均衡数据集N中有放回地重复随机抽取K个样本生成新的数据样本合集;
根据所述新的数据样本集生成T个分类树组成随机森林;
对每个经过所述bootstrap抽样法得来的样本进行决策树建模,组成多棵决策树进行预测,并通过投票得出最终预测结果。
进一步地,所述决策树,具体为:
每棵决策树由样本量为K的训练样本X和随机向量θk生成;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳博普科技有限公司,未经深圳博普科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010464925.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种脚踏式按摩椅
- 下一篇:一种债券风险预测方法和系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置