[发明专利]特征衍生方法、装置、计算机设备及介质在审
申请号: | 202011211554.8 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112328657A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 刘波 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28;G06F16/9535;G06K9/62 |
代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 汪琳琳 |
地址: | 518000 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 衍生 方法 装置 计算机 设备 介质 | ||
本发明涉及数据处理领域,公开了一种特征衍生方法、装置、计算机设备及介质,所述方法包括:通过获取基础数据,并按照预设标签类型对基础数据进行分类,得到初始类别信息,进而对每个初始类别信息进行缺失值处理,得到基础类别信息,再计算每个基础类别信息的基础特征的稳定度,筛选出稳定度超过预设稳定度阈值的基础特征,作为稳定特征,通过预设的特征排序方式,对稳定特征进行重要性排序筛选,得到关键特征序列,再根据关键特征序列进行特征衍生,得到衍生特征。本发明提高了特征衍生的效率。
技术领域
本发明涉及数据处理领域,尤其涉及一种特征衍生方法、装置、计算机设备及介质。
背景技术
随着人工智能技术的发展,依据现有数据中的特征进行机器学习建立相关模型已非常常见。例如,在第三方支付平台或网络购物平台的风险防控领域,常依据现有的包含风险特征(例如,交易事件数据中的交易金额、交易频率等特征)的数据进行机器学习得到风控模型,以及,对于一些电信诈骗的风险识别模型等。
针对各种风控模型,不法分子会不断的改进作案手段以避开风险防控,使得风险形式不断发生变化,这就需要不断地对风控模型进行改进,以对未来可能出现的新风险做出有效的防控。然而,现有数据中的风险特征无法代表未来的情况,未来的包含新风险特征的数据还没有产生,因此,需要对现有数据中的风险特征进行学习,衍生得到能够反映未来风险的新风险特征,以对风控模型进行改进。其中,对现有特征进行学习衍生得到新特征的过程叫特征衍生。
目前,要么依据人工经验进行特征衍生,要么利用穷举的方式进行特征衍生。前者依赖于领域内的专家经验,耗时长、衍生过程慢;后者需要花费大量的计算资源进行计算,耗时也较长、衍生过程也慢。因而,亟需一种高效的特征衍生方法。
发明内容
本发明实施例提供一种特征衍生方法、装置、计算机设备和存储介质,以提高特征衍生的效率。
为了解决上述技术问题,本申请实施例提供一种特征衍生方法,包括:
获取基础数据,并按照预设标签类型对所述基础数据进行分类,得到初始类别信息;
对每个所述初始类别信息进行缺失值处理,得到基础类别信息,其中,每个基础类别信息至少包括一个基础特征;
计算每个基础类别信息的基础特征的稳定度,筛选出稳定度超过预设稳定度阈值的基础特征,作为稳定特征;
通过预设的特征排序方式,对所述稳定特征进行重要性排序筛选,得到关键特征序列;
根据所述关键特征序列进行特征衍生,得到衍生特征。
可选地,所述对每个所述初始类别信息进行缺失值处理,得到基础类别信息包括:
针对每个初始类别信息,获取所述初始类别信息中每个基础特征对应的特征值;
对所述特征值进行数据校验,将未通过校验的特征值作为缺失值;
对每个基础特征对应的缺失值进行统计,并将缺失值与所有特征值的比例超过预设比例的基础特征,作为无效特征,并从所述初始类别信息中移除所述无效特征,得到基础类别信息。
可选地,所述计算每个基础类别信息的基础特征的稳定度,筛选出稳定度超过预设稳定度阈值的基础特征,作为稳定特征包括:
计算每个基础特征的信息值IV,并根据所述信息值IV进行特征筛选,得到关键特征;
通过预设方式,计算所述关键特征的稳定度指标PSI,将所述稳定度指标PSI超过预设稳定度阈值的关键特征,作为稳定特征。
可选地,所述基础特征包括连续型的特征,所述计算每个基础特征的信息值IV包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011211554.8/2.html,转载请声明来源钻瓜专利网。