[发明专利]针对机器学习的特征处理方法及特征处理系统在审
申请号: | 202011074371.6 | 申请日: | 2016-10-09 |
公开(公告)号: | CN113610239A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 罗远飞;涂威威 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 苏银虹;曾世骁 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 机器 学习 特征 处理 方法 系统 | ||
1.一种针对机器学习的特征处理方法,包括:
(A)获取数据记录,其中,所述数据记录包括至少一个属性信息;
(B)针对基于所述至少一个属性信息之中的至少一部分属性信息产生的连续特征之中的每一个连续特征,执行基本分箱运算和至少一个附加运算,以产生与所述每一个连续特征对应的基本分箱特征和至少一个附加特征;
(C)产生至少包括所产生的基本分箱特征和至少一个附加特征的机器学习样本。
2.如权利要求1所述的特征处理方法,其中,所述至少一个附加运算包括以下种类的运算之中的至少一种运算:对数运算、指数运算、绝对值运算、高斯变换运算。
3.如权利要求1或2所述的特征处理方法,其中,所述至少一个附加运算包括与基本分箱运算分箱方式相同但分箱参数不同的附加分箱运算;或者,所述至少一个附加运算包括与基本分箱运算分箱方式不同的附加分箱运算。
4.如权利要求3所述的特征处理方法,其中,基本分箱运算和附加分箱运算分别对应于不同宽度的等宽分箱运算或不同深度的等深分箱。
5.如权利要求4所述的特征处理方法,其中,所述不同宽度或不同深度在数值上构成等比数列或等差数列。
6.如权利要求3所述的特征处理方法,其中,在步骤(B)中,执行基本分箱运算和/或附加分箱运算,以产生与所述每一个连续特征对应的多维度的基本分箱特征和/或附加分箱特征,其中,每个维度指示对应的箱子中是否被分到了相应的连续特征;或者,每个维度指示对应的箱子中被分到的相应的连续特征的特征值;或者,每个维度指示对应的箱子中被分到的所有连续特征的特征值的平均值;或者,每个维度指示对应的箱子中被分到的所有连续特征的特征值的中间值;或者,每个维度指示对应的箱子中被分到的所有连续特征的特征值的边界值。
7.如权利要求3所述的特征处理方法,其中,在步骤(B)中,执行基本分箱运算和/或附加分箱运算的步骤包括:额外设置离群箱,使得具有离群值的连续特征被分到所述离群箱。
8.如权利要求1所述的特征处理方法,其中,在步骤(C)中产生的机器学习样本还包括基于所述至少一部分属性信息产生的所述连续特征之中的至少一个连续特征。
9.一种针对机器学习的特征处理系统,包括:
数据记录获取装置,用于获取数据记录,其中,所述数据记录包括至少一个属性信息;
特征产生装置,用于针对基于所述至少一个属性信息之中的至少一部分属性信息产生的连续特征之中的每一个连续特征,执行基本分箱运算和至少一个附加运算,以产生与所述每一个连续特征对应的基本分箱特征和至少一个附加特征;
机器学习样本产生装置,用于产生至少包括所产生的基本分箱特征和至少一个附加特征的机器学习样本。
10.一种执行针对机器学习的特征处理的计算装置,包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行下述步骤:
(A)获取数据记录,其中,所述数据记录包括至少一个属性信息;
(B)针对基于所述至少一个属性信息之中的至少一部分属性信息产生的连续特征之中的每一个连续特征,执行基本分箱运算和至少一个附加运算,以产生与所述每一个连续特征对应的基本分箱特征和至少一个附加特征;
(C)产生至少包括所产生的基本分箱特征和至少一个附加特征的机器学习样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011074371.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:毛发修剪器的启闭控制机构及毛发修剪器
- 下一篇:栅极氧化层的形成方法