[发明专利]多列基准列聚合特征生成方法、系统及可读存储介质在审

申请号：	202210968052.2	申请日：	2022-08-12
公开（公告）号：	CN115358307A	公开（公告）日：	2022-11-18
发明（设计）人：	陈海波;罗志鹏	申请（专利权）人：	深延科技（北京）有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06F16/2458
代理公司：	北京金智普华知识产权代理有限公司 11401	代理人：	徐会娟
地址：	100089 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基准聚合特征生成方法系统可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种多列基准列聚合特征生成方法、系统及可读存储介质，所述多列基准列聚合特征生成方法包括：S1：对每基准列进行编码；S2：生成一列对所有基准列组合编码的组合基准列；S3：基于S2中组合基准列生成统计特征，本发明能够有效加速生成多列基准列的聚合特征，同时提高了数据分析和数据挖掘的效率。

【技术领域】

本发明涉及数据处理技术领域，尤其涉及多列基准列聚合特征生成方法、系统及可读存储介质。

【背景技术】

在对表数据进行数据分析或者数据挖掘的过程中，通常需要对表数据做转换或统计，来挖掘数据中的特征。其中一种统计方式非常常用，它就是基于一列或多列类别特征对数据分类，然后对其他特征量进行统计。例如，在电商推荐系统中，统计基于用户ID对商品价格求平均值和总和，在和整体均值做比较，反映了用户过去的购买力；统计基于用户ID和商品类别ID对商品价格求平均值和总和，这能够更加细致的反映出用户的偏好；更进一步还能统计基于用户ID，商品类别ID和品牌ID的其他列的统计量。统计基于用户ID对商品价格求平均值和总和，在和整体均值做比较，是列基准列的统计，统计基于用户ID和商品类别ID对商品价格求平均值和总和，是多列基准列的统计。然而当作为基准的列越多，统计的复杂度就越高，有些数据分析的代码库里面的实现方法，随着基准列的增加，复杂度甚至呈指数级增加。所以基于多列统计的算法效率的优化很重要，尤其是当表数据本身就很大的时候。

现有的解决方法无非采用工具，例如python，现在python是最常用的数据分析与挖掘工具，而Pandas是python中最出名的开源数据分析与操作工具，以下例子都由Pandas进行说明。使用Pandas做基于单列或者多列的统计，可以通过Groupby单列或者多列特征，在计算统计量得以实现。尽管不同数据分析的工具对这类问题的效率都进行了优化，但是对于多列统计的方法，由于需要多层索引，复杂度与复杂度的优化表现还是差强人意，还是有很多提升的空间。

因此，针对现有方法的不足所带来的问题，亟需寻找一种行之有效的解决方法。

【发明内容】

有鉴于此，本发明提供了一种多列基准列聚合特征生成方法、系统及可读存储介质，本发明基于Pandas，优化基于多列统计算法的处理效果，随着数据量的增加，本发明的方法的优势更加明显。

一方面，本发明提供一种多列基准列聚合特征生成方法，所述多列基准列聚合特征生成方法包括：

S1：对每列基准列进行编码；

S2：获得对所有基准列进行组合编码的组合基准列；

S3：基于所述组合基准列获取多列基准列聚合特征。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S1具体包括：

S11：将每列基准列编码成从零开始的稠密连续特征；

S12：用数字对稠密连续特征中的连续特征进行类别区分标识。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，在所述S11中，

使用pandas的factorize函数将每列基准列编码成从零开始的稠密连续特征。