[发明专利]一种学习建模中数据处理方法在审
申请号: | 202010392818.8 | 申请日: | 2020-05-11 |
公开(公告)号: | CN111582501A | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 马秀霖 | 申请(专利权)人: | 浪潮软件股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 阚恭勇 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 学习 建模 数据处理 方法 | ||
本发明提供一种学习建模中数据处理方法,属于Python机器学习建模解决技术领域,本发明以幂律关系为基础,针对符合长尾分布的y变量,利用log变换、等宽标准化,从而将所需信息量很大的回归问题转化为所需信息量较小的多分类问题,以便后续建模工作顺利进行。
技术领域
本发明涉及Python机器学习建模解决技术领域,尤其涉及一种学习建模中数据处理方法。
背景技术
幂律是来自上世纪20年代对于英语单词频率的分析,真正常用的单词量很少,很多单词不常被使用,语言学家发现单词使用的频率和它的使用优先度是一个常数次幂的反比关系。精确地说,简单来说,幂律就是两个通俗的定律,一个是“长尾”理论,只有少数大的门户网站是很多人关注的,但是还有一个长长的尾巴,就是小网站,小公司。长尾理论就是对幂律通俗化的解释。另外一个通俗解释就是马太效应,穷者越穷富者越富。
离散化是程序设计中一个常用的技巧,它可以有效的降低时间复杂度。其基本思想就是在众多可能的情况中,只考虑需要用的值。离散化可以改进一个低效的算法,甚至实现根本不可能实现的算法,等宽离散化是将连续数据按照等宽区间标准离散化数据,比如属性值在[0,60]之间,最小值为0,最大值为60,我们要将其分为3等分,则区间被划分为[0,20]、[21,40]、[41,60],每个属性值对应属于它的那个区间。
在对现实世界数据进行机器学习建模过程中,常常碰到长尾分布的连续型y变量,其相空间很大,且数值精度较高,比如,营销市场状态下的商户的销量、销额和库存等,当使用机器学习算法对这种y变量进行预测时,常会因为x变量没有强特征作为支撑导致不能精准预测y变量。这就导致存在误差较大并无法做出合理预测。
发明内容
本发明提出了一种学习建模中数据处理方法,解决机器学习算法建模过程中针对符合长尾分布的因变量基于幂律关系离散化科学处理的问题。
本发明实现对机器学习数据建模中的符合长尾分布y变量,进行log变换使其符合正态分布,然后在对变换后的连续型变量进行等宽区间离散化从而将所需信息量很大的回归问题转化为所需信息量较小的多分类问题,保证预测数据的精准性。
本发明的技术方案是:
一种学习建模中数据处理方法,包括如下步骤:
1)采集数据、对数据进行预处理;
2)查看展示数据是否符合长尾分部;
3)进行幂律变换,等宽标准化变换为离散变量。
进一步的,
基于幂律关系,对符合长尾分布的y变量进行log变换,使其符合正态分布,然后在对变换后的连续型变量进行等宽区间离散化。
进一步的,
基于python环境,安装数据分析挖掘核心库,采集y变量数据,编写python脚本,对数据进行预处理。
进一步的,
所述预处理,包含空值填充、异常值处理。
进一步的,
所述数据分析挖掘核心库包括numpy、pandas、keras。
进一步的,
安装matlibplot画图工具库,通过python脚本对y变量的数据特征分布进行展示。
进一步的,
将符合长尾分布的y变量取log变换,通过python脚本画图展示,展示数据特征分布是否为正态分布,对正态分布后的数据进行等宽标准化变换将初始的连续型y变量转换为离散型y变量。
进一步的,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件股份有限公司,未经浪潮软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010392818.8/2.html,转载请声明来源钻瓜专利网。