[发明专利]一种构建偏态分布特征数据集的方法、装置和计算机系统在审
申请号: | 202011286144.X | 申请日: | 2020-11-17 |
公开(公告)号: | CN112395330A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 柴建峰;盛建勤;鲍庆丰;钟杨 | 申请(专利权)人: | 浙江微能科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/248;G06Q30/02 |
代理公司: | 杭州信义达专利代理事务所(普通合伙) 33305 | 代理人: | 万景旺 |
地址: | 310012 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 构建 分布 特征 数据 方法 装置 计算机系统 | ||
本发明公开了一种构建偏态分布特征数据集的方法、装置、计算机系统,属于计算机信息技术领域。所述方法包括:S1获取参数;S2,建立正态分布数据集X,X~(μ,σ);S3,将所有小于Min和大于max的随机数值的建立均值为μ、标准差为σ的包含随机数值的正态分布数据集,直至所有随机数值介于Min和Max之间,生成新的数据集X',均值为μ';S4,比较μ与μ'的差值Dist的绝对值是否大于预设阈值,如果大于预设阈值时,重复步骤S3至S4,且μ更新为μ+Dist;如果不大于预设阈值,则输出X',即为具有截断偏态分布特征的数据集。利用本发明,可以生成具有截断偏态分布特征的数据集,其均值满足期望,具有广阔的应用前景和重要的经济价值。
技术领域
本发明属于计算机信息技术领域,具体地,涉及一种构建偏态分布特征数据集的方法、装置和计算机系统。
背景技术
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussiandistribution),最早由棣莫弗(Abraham de Moivre)在求二项分布的渐近公式中得到。正态分布是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
正态分布的曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。若随机变量X服从一个数学期望为μ、标准差为σ的正态分布,记为X~(μ,σ)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ=0,σ=1时的正态分布是标准正态分布。
现在,商业活动在进行卡券营销等活动中,需要为订单产生指定均值及标准差,又呈现正态分布特征的随机优惠金额。但是,如果直接采用标准正态分布随机数,优惠金额会出现小于0或大于最大金额的情况,显然这不符合实际业务要求。而如果简单的对正态分布进行截断处理,又会导致实际随机金额均值不再等于指定均值。
发明内容
为了解决上述技术问题,本发明采用的技术方案如下:
本发明一方面提供了一种构建具有截断偏态分布特征的数据集的方法,包括以下步骤:
S1,获取待构建数据集的均值μ、标准差σ、最大值Max、最小值Min和总值Total;
S2,建立均值为μ、标准差为σ的包含随机数值的正态分布数据集X,满足X~(μ,σ),包括介于Min和Max之间的随机数值的数据集X1,以及小于Min和大于max的随机数值的数据集X2;
S3,利用数据集X2中所有随机数值的合计值建立均值为μ、标准差为σ的包含随机数值的正态分布数据集,并不断利用新的数据集中所有小于Min和大于Max的随机数值的合计值建立均值为μ、标准差为σ的包含随机数值的正态分布数据集,直至所有随机数值介于Min和Max之间,合并所有随机数值得到数据集X2',其中,均值μ的初始值为参数获取模块获取的均值μ;
S4,将S3得到的数据集X2'与S2得到的数据集X1合并得到数据集X',X'的均值为μ',μ-μ'得到的差值为Dist;
S5,当Dist的绝对值大于预设阈值时,重复步骤S3至S4,且μ更新为μ+Dist;当Dist的绝对值小于或等于预设阈值,输出X',即为具有截断偏态分布特征的数据集。
在本发明的一些实施方案中,所述随机数值为货币金额,优选地单位为人民币元。在本发明的一些具体实施方案中,所述随机数值截止到小数点后2位。
在本发明的一些实施方案中,优选地,S2和S3中,利用正态分布数据集生成软件或算法建立正态分布数据集。其中,所述软件或算法可以是任意可以生成正态分布数据集的软件或算法。
在本发明的一些实施方案中,优选地,所述预设阈值为平均值μ的0.1%-1%。在本发明的一些实施方案中,更优选地,所述预设阈值为平均值μ的0.5%。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江微能科技有限公司,未经浙江微能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011286144.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置