[发明专利]提取降维特征的方法和装置有效
申请号: | 201910380805.6 | 申请日: | 2019-05-08 |
公开(公告)号: | CN110210518B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 高树立 | 申请(专利权)人: | 北京互金新融科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 赵囡囡 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提取 特征 方法 装置 | ||
本申请公开了一种提取降维特征的方法和装置。该方法包括:从训练数据中提取预设场景下的特征重要性数值,其中,训练数据为有标签的结构化数据,特征重要性数值用于指示该特征对标签中标识的结果的影响程度;将特征重要性数值进行归一化处理得到特征重要性向量;将特征重要性向量传递至稀疏自编码网络中,以影响神经元权重;将无标签的结构化数据输入进行稀疏自编码网络中,以对无标签的结构化数据进行降维处理。通过本申请,解决了相关技术中有标签数据很难获得,而从无标签数据中提取有效的信息来提升该场景的模型预测性能的现有方案均无法满足当下需求的技术问题。
技术领域
本申请涉及特征提取领域,具体而言,涉及一种提取降维特征的方法和装置。
背景技术
在机器学习建模场景中,会遇到标签数据缺乏,但是无标签数据量大的情况。这种情况下,如果仅仅利用少量的有标签数据进行建模,往往得不到好的预测结果。例如,在金融消费信贷领域,订单套现情况常有发生,但是这类标签数据的获取,不管从时间成本还是人力成本来讲,需要的成本都比较高。
目前应对这种样本少的方法是,利用样本生成手段以增加样本量,但是这种方法在建模的过程中,容易造成过拟合的现象。
在上述有标签数据很难获得的情况下,可以从无标签数据中提取有效的信息来提升该场景的模型预测性能,即将无标签数据的所携带的信息传递到有标签数据上,以增加模型预测的性能。具体的,采用上述处理方式的现有技术大致为以下两种:
其一、皮尔逊相关系数。即计算特征之间的皮尔逊相关系数,然后按照相关系数的大小去除相似度比较高的特征以达到降维的目的。但是该方法存在特征维度高时,计算复杂度也较高,以及只能在原始特征上进行特征筛选,不能生成新的特征的技术问题。
其二、主成分析。它是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。但是该方法存在对原始特征进行降维,同时生成新的组合特征,以及只能生成与原始特征线性相关的新特征,不能构造出更高层次的非线性特征的技术问题。
针对相关技术中,有标签数据很难获得,而从无标签数据中提取有效的信息来提升该场景的模型预测性能的现有方案均无法满足当下需求的技术问题,目前尚未提出有效的解决方案。
发明内容
本申请提供一种提取降维特征的方法和装置,以解决相关技术中有标签数据很难获得,而从无标签数据中提取有效的信息来提升该场景的模型预测性能的现有方案均无法满足当下需求的技术问题。
根据本申请的一个方面,提供了一种提取降维特征的方法。该方法包括:从训练数据中提取预设场景下的特征重要性数值,其中,所述训练数据为有标签的结构化数据,所述特征重要性数值用于指示该特征对所述标签中标识的结果的影响程度;将所述特征重要性数值进行归一化处理得到特征重要性向量;将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重;将无标签的结构化数据输入进行所述稀疏自编码网络中,以对所述无标签的结构化数据进行降维处理。
可选的,从训练数据中提取预设场景下的特征重要性数值包括:对所述有标签的结构化数据进行预处理,以组成训练数据;将所述训练数据输入至树模型算法中,获取所述训练数据中多个特征对应的特征重要性数值。
可选的,将所述特征重要性数值进行归一化处理得到特征重要性向量包括:对所述特征重要性数值进行归一化处理,确定每个所述特征重要性数值对应的纯量值;确定位于预设范围内的目标纯量值,以及所述目标纯量值对应的目标特征;依据长尾分布定律,重新确定所述目标特征的特征重要性数值;对所述训练数据中每个特征的特征重要性数值进行整合处理,以获取特征重要性向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京互金新融科技有限公司,未经北京互金新融科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910380805.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于密度的多层分步聚类方法
- 下一篇:分类方法、计算机设备和存储介质