[发明专利]提取降维特征的方法和装置有效
申请号: | 201910380805.6 | 申请日: | 2019-05-08 |
公开(公告)号: | CN110210518B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 高树立 | 申请(专利权)人: | 北京互金新融科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 赵囡囡 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提取 特征 方法 装置 | ||
1.一种提取降维特征的方法,其特征在于,包括:
从训练数据中提取预设场景下的特征重要性数值,其中,所述训练数据为有标签的结构化数据,所述特征重要性数值用于指示该特征对所述标签中标识的结果的影响程度;
将所述特征重要性数值进行归一化处理得到特征重要性向量;
将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重;
将无标签的结构化数据输入进行所述稀疏自编码网络中,以对所述无标签的结构化数据进行降维处理;
其中,将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重包括:确定所述稀疏自编码网络对应的目标表达式和稀疏系数;基于所述特征重要性向量和所述稀疏系数,对所述目标表达式采用梯度下降法进行优化处理,确定所述稀疏自编码网络的基向量和激活系数;
其中,所述目标表达式为:
以及,pl∈P=[p1,p2,p3...pl]T,为归一化后的特征重要性权重,为无标签的结构化数据集合,i表示样本索引,l为样本特征维度,基向量bj={b1,b2,...bs},aj为bj对应的激活向量,ρ表示目标分布,代表拟合分布,β为正则化项的系数,表示基于ρ和的KL散度构造惩罚项。
2.根据权利要求1所述的方法,其特征在于,从训练数据中提取预设场景下的特征重要性数值包括:
对所述有标签的结构化数据进行预处理,以组成训练数据;
将所述训练数据输入至树模型算法中,获取所述训练数据中多个特征对应的特征重要性数值。
3.根据权利要求1所述的方法,其特征在于,将所述特征重要性数值进行归一化处理得到特征重要性向量包括:
对所述特征重要性数值进行归一化处理,确定每个所述特征重要性数值对应的纯量值;
确定位于预设范围内的目标纯量值,以及所述目标纯量值对应的目标特征;
依据长尾分布定律,重新确定所述目标特征的特征重要性数值;
对所述训练数据中每个特征的特征重要性数值进行整合处理,以获取特征重要性向量。
4.一种提取降维特征的装置,其特征在于,包括:
提取单元,用于从训练数据中提取预设场景下的特征重要性数值,其中,所述训练数据为有标签的结构化数据,所述特征重要性数值用于指示该特征对所述标签中标识的结果的影响程度;
处理单元,用于将所述特征重要性数值进行归一化处理得到特征重要性向量;
传递单元,用于将所述特征重要性向量传递至稀疏自编码网络中,以影响神经元权重;
降维单元,用于将无标签的结构化数据输入进行所述稀疏自编码网络中,以对所述无标签的结构化数据进行降维处理;
其中,所述传递单元包括:第四确定模块,用于确定所述稀疏自编码网络对应的目标表达式和稀疏系数;第五确定模块,用于基于所述特征重要性向量和所述稀疏系数,对所述目标表达式采用梯度下降法进行优化处理,确定所述稀疏自编码网络的基向量和激活系数;
其中,所述目标表达式为:
以及,pl∈P=[p1,p2,p3...pl]T,为归一化后的特征重要性权重,为无标签的结构化数据集合,i表示样本索引,l为样本特征维度,基向量bj={b1,b2,...bs},aj为bj对应的激活向量,ρ表示目标分布,代表拟合分布,β为正则化项的系数,表示基于ρ和的KL散度构造惩罚项。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京互金新融科技有限公司,未经北京互金新融科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910380805.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于密度的多层分步聚类方法
- 下一篇:分类方法、计算机设备和存储介质