[发明专利]特征构建方法、装置、计算机设备及存储介质有效
申请号: | 202010621785.X | 申请日: | 2020-06-30 |
公开(公告)号: | CN111753920B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 重庆紫光华山智安科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 张欣欣 |
地址: | 400700 重庆市*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 构建 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及机器学习技术领域,提供一种特征构建方法、装置、计算机设备及存储介质,首先,通过第一特征构建单元和第二特征构建单元,构建出特征构建集的多个第一集合和每个所述第一集合的特征值,并记录特征构建过程中的特征构建信息;其次,通过第一特征构建单元和特征构建信息,分别构建出训练集的多个第二集合和测试集的多个第三集合;再通过多个第二集合的特征值和多个第三集合的特征值对二分类模型进行训练和测试,以迭代修改第一特征构建单元和第二特征构建单元的超参数;从而针对不同应用场景调整特征的表现能力,实现有监督的高效的特征构建。
技术领域
本申请涉及机器学习技术领域,具体而言,涉及一种特征构建方法、装置、计算机设备及存储介质。
背景技术
特征构建是结构化数据建模流程中重要的组成部分,也是决定数据挖掘或机器学习项目成功与否重要的因素。
通常,二分类模型的特征构建过程是从业务经验开始的,即,首先根据业务专家的业务经验,选择业务中产生的对算法所学习模式有重要作用的数据项;再通过各种手段对特征进行单变量或多变量操作构建新的特征,如采用特征聚合、映射、抽取、分箱、计算等单变量操作,或者特征交叉(组合)、多项式计算、分组聚合等多变量操作实现特征构建。
但是,上述的特征构建方法都是无监督的方式,特征对算法所学模式的表达能力在模型构建之前是未知的,且从大量建模经验来看,这种无监督方式构建的特征绝大多数是无效或重复的,即特征信息浓度低。同时,上述特征构建过程无法做到有效调整。
发明内容
本申请的目的在于提供一种特征构建方法、装置、计算机设备及存储介质,用以解决现有的特征构建方式构建的特征信息浓度低且无法有效调整特征构建过程的问题。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请提供了一种特征构建方法,所述方法包括:
获取多个样本,并将所述多个样本划分为特征构建集、训练集及测试集;
利用第一特征构建单元,对所述特征构建集中的所述样本进行特征构建并记录特征构建信息,得到多个第一集合;
利用第二特征构建单元计算每个所述第一集合的特征值;
生成特征映射表,其中,所述特征映射表包括多个预设类别、所述多个第一集合和每个所述第一集合的特征值,一个所述预设类别和一个所述第一集合确定一个所述特征值;
利用所述第一特征构建单元和所述特征构建信息,分别对所述训练集和所述测试集中的所述样本进行特征构建,得到多个第二集合和多个第三集合,所述多个第二集合和所述多个第一集合一一对应,所述多个第三集合和所述多个第一集合一一对应;
依据所述多个预设类别查找所述特征映射表,获得每个所述第二集合的特征值和每个所述第三集合的特征值;
利用每个所述第二集合的特征值和每个所述第三集合的特征值,对预先选定的二分类模型进行训练和测试,以迭代修改所述第一特征构建单元和所述第二特征构建单元的超参数,直至所述第一特征构建单元和所述第二特征构建单元达到最优。
第二方面,本申请还提供了一种特征构建装置,所述装置包括:
样本获取模块,用于获取多个样本,并将所述多个样本划分为特征构建集、训练集及测试集;
第一执行模块,用于利用第一特征构建单元,对所述特征构建集中的所述样本进行特征构建并记录特征构建信息,得到多个第一集合;
第二执行模块,用于利用第二特征构建单元计算每个所述第一集合的特征值;
生成模块,用于生成特征映射表,其中,所述特征映射表包括多个预设类别、所述多个第一集合和每个所述第一集合的特征值,一个所述预设类别和一个所述第一集合确定一个所述特征值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆紫光华山智安科技有限公司,未经重庆紫光华山智安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010621785.X/2.html,转载请声明来源钻瓜专利网。