[发明专利]一种学习建模中数据处理方法在审

申请号：	202010392818.8	申请日：	2020-05-11
公开（公告）号：	CN111582501A	公开（公告）日：	2020-08-25
发明（设计）人：	马秀霖	申请（专利权）人：	浪潮软件股份有限公司
主分类号：	G06N20/00	分类号：	G06N20/00
代理公司：	济南信达专利事务所有限公司 37100	代理人：	阚恭勇
地址：	250100 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种学习建模数据处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种学习建模中数据处理方法，属于Python机器学习建模解决技术领域，本发明以幂律关系为基础，针对符合长尾分布的y变量，利用log变换、等宽标准化，从而将所需信息量很大的回归问题转化为所需信息量较小的多分类问题，以便后续建模工作顺利进行。

技术领域

本发明涉及Python机器学习建模解决技术领域，尤其涉及一种学习建模中数据处理方法。

背景技术

幂律是来自上世纪20年代对于英语单词频率的分析，真正常用的单词量很少，很多单词不常被使用，语言学家发现单词使用的频率和它的使用优先度是一个常数次幂的反比关系。精确地说，简单来说，幂律就是两个通俗的定律，一个是“长尾”理论，只有少数大的门户网站是很多人关注的，但是还有一个长长的尾巴，就是小网站，小公司。长尾理论就是对幂律通俗化的解释。另外一个通俗解释就是马太效应，穷者越穷富者越富。

离散化是程序设计中一个常用的技巧，它可以有效的降低时间复杂度。其基本思想就是在众多可能的情况中，只考虑需要用的值。离散化可以改进一个低效的算法，甚至实现根本不可能实现的算法，等宽离散化是将连续数据按照等宽区间标准离散化数据，比如属性值在[0，60]之间，最小值为0，最大值为60，我们要将其分为3等分，则区间被划分为[0,20]、[21,40]、[41，60]，每个属性值对应属于它的那个区间。

在对现实世界数据进行机器学习建模过程中，常常碰到长尾分布的连续型y变量，其相空间很大，且数值精度较高，比如，营销市场状态下的商户的销量、销额和库存等，当使用机器学习算法对这种y变量进行预测时，常会因为x变量没有强特征作为支撑导致不能精准预测y变量。这就导致存在误差较大并无法做出合理预测。

发明内容

本发明提出了一种学习建模中数据处理方法，解决机器学习算法建模过程中针对符合长尾分布的因变量基于幂律关系离散化科学处理的问题。

本发明实现对机器学习数据建模中的符合长尾分布y变量，进行log变换使其符合正态分布，然后在对变换后的连续型变量进行等宽区间离散化从而将所需信息量很大的回归问题转化为所需信息量较小的多分类问题,保证预测数据的精准性。

本发明的技术方案是：

一种学习建模中数据处理方法，包括如下步骤：

1)采集数据、对数据进行预处理；

2)查看展示数据是否符合长尾分部；

3)进行幂律变换，等宽标准化变换为离散变量。

进一步的，

基于幂律关系，对符合长尾分布的y变量进行log变换，使其符合正态分布，然后在对变换后的连续型变量进行等宽区间离散化。

进一步的，