[发明专利]特征提取方法、装置及计算机可读存储介质有效
申请号: | 201910401822.3 | 申请日: | 2019-05-15 |
公开(公告)号: | CN110222087B | 公开(公告)日: | 2023-10-17 |
发明(设计)人: | 黄博;毕野;吴振宇;王建明 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06N3/044;G06N3/0499;G06N3/08 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 提取 方法 装置 计算机 可读 存储 介质 | ||
本发明公开了一种特征提取方法,该方法包括:获取训练数据,所述训练数据包括每个样本数据对应的原始特征;利用所述训练数据训练初始特征提取模型,并得到初始特征提取模型的参数值;对初始特征提取模型的参数值进行筛选,获取筛选后的参数值;利用筛选后的参数值重构所述初始特征提取模型,得到重构后的特征提取模型;将所述训练数据输入至所述重构后的特征提取模型中,得到每个样本数据的衍生特征;根据每个样本数据的衍生特征及每个样本数据对应的原始特征重新训练所述重构后的特征提取模型,直至迭代终止,并得到训练好的特征提取模型。本发明能更好的表示数据特征,提高特征提取的准确性。
技术领域
本发明涉及计算机技术领域,尤其涉及一种特征提取方法、装置及计算机可读存储介质。
背景技术
一个常用的数据挖掘流程包括数据采集、数据预处理、特征构建与选择、模型训练、预测等阶段。其中特征构建与选择较为耗时,但又是非常重要的。这是因为特征构建与选择的结果将作为机器学习模型的输入,如果特征不能表达数据中隐藏的模式,机器学习模型将学不到任何东西,自然无法提供较为准确的预测结果。
为了获得精细化的输入特征,一般需要使用大量的人力和时间进行特征构建与选择,然而,人工进行特征的构建与选择的代价非常高。一方面,需要消耗大量的人力;另一方面,很多隐藏在数据里的特征是很难被人发现的。
发明内容
本发明提供一种特征提取方法、装置及计算机可读存储介质,其主要目的在于更能准确的表示数据的特征,从而更能准确的提取数据的特征信息。
为实现上述目的,本发明还提供一种特征提取方法,所述方法包括:
获取训练数据,所述训练数据包括每个样本数据对应的原始特征;
利用所述训练数据训练初始特征提取模型,并得到初始特征提取模型的参数值;
对初始特征提取模型的参数值进行筛选,获取筛选后的参数值;
利用筛选后的参数值重构所述初始特征提取模型,得到重构后的特征提取模型;
将所述训练数据输入至所述重构后的特征提取模型中,得到每个样本数据的衍生特征;
根据每个样本数据的衍生特征及每个样本数据对应的原始特征重新训练所述重构后的特征提取模型,直至迭代终止,并得到训练好的特征提取模型;
获取目标数据;
将所述目标数据输入至训练好的特征提取模型中,得到所述目标数据的特征。
优选地,所述获取训练数据包括:
获取原始样本数据;
对所述原始样本数据进行预处理,得到所述训练数据,所述预处理包括以下至少一种:归一化处理、缺失值填充、噪声数据处理、不一致数据的数据清理。
优选地,所述初始特征提取模型包括循环神经网络模型,所述循环神经网络模型包括:输入层、隐藏层和输出层;
输入层:用于定义元素的特征数据中不同类型的数据输入;
隐藏层:用于利用激励函数对输入层输入的元素的特征数据进行非线性化处理;
输出层:用于对隐藏层拟合的结果进行输出表示,输出元素的特征对应的数据类型;
记忆单元:记忆单元在神经元内部决定是否应该写入或删除对信息的记忆,并将之前的记录的元素的特征数据、现在的记忆的元素的特征数据和当前输入的元素的特征结合在一起,对长期信息进行记录。
优选地,所述对初始特征提取模型的参数值进行筛选,获取筛选后的参数值包括:
计算所述初始特征提取模型的参数值相对于所述初始特征提取模型的灵敏度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910401822.3/2.html,转载请声明来源钻瓜专利网。