[发明专利]一种产生数据的方法和装置有效
申请号: | 201310027416.8 | 申请日: | 2013-01-24 |
公开(公告)号: | CN103970738B | 公开(公告)日: | 2017-08-29 |
发明(设计)人: | 罗纯杰;王磊;詹剑锋;张立新 | 申请(专利权)人: | 华为技术有限公司;中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/08 |
代理公司: | 北京中博世达专利商标代理有限公司11274 | 代理人: | 申健 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 产生 数据 方法 装置 | ||
技术领域
本发明涉及计算机领域,尤其涉及一种产生数据的方法和装置。
背景技术
随着互联网的不断发展,大数据(Big Data)通常用来形容一个公司创造的大量非结构化和半结构化数据,现在对大数据的研究已经扩展到生活的方方面面,通过对大数据进行分析发掘,进而获得更有价值的信息。大数据已成为当前很多行业研究的主题。
在对大数据进行处理时,需要处理的数据量是极其庞大的,然而处于保密性的考虑,大数据处理方案的提供者只能得到小规模的样本数据,往往不能获取到实际的大数据来进行测试,并且获取和传输大数据的过程中,会占用更多的资源,对相应的存储和网络资源都有较高的要求。
现有大规模数据生成技术主要包括以下几种:基于Hadoop(一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序)基准测试程序集,利用完全随机的方式来产生大规模的数据;或者,采用zipfian分布生成数据,或按照均匀分布和高斯分布生成数据。
但是上述三种现有技术生成的大数据都不能反应样本数据的原有的规律性,使得新生成的数据参考性较低。
发明内容
本发明的实施例提供一种产生数据的方法和装置,能够利用小规模的样本数据生成大数据,同时还保留了原有小规模数据的特征规律,提高了生成的大数据的参考价值,并且不需要进行数据的大规模移动,有效节省了存储和网络开销。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种产生数据的方法,所述方法包括:
根据已获得的样本数据制定数据生成策略;
根据所述数据生成策略生成第一数据,并将所述第一数据上传至文件系统;
将所述数据生成策略发送至从节点,以便所述从节点根据所述数据生成策略生成第二数据,并将所述第二数据上传至所述文件系统。
在第一种可能的实现方式中,结合第一方面,所述样本数据为m行n列的矩阵,其中m表示第一对象的总数,n表示第二对象的总数,所述矩阵中元素为r(u,i),所述r(u,i)表示第u个第一对象对第i个第二对象的评分。
在第二种可能的实现方式中,结合第一种可能的实现方式,所述根据已获得的样本数据制定数据生成策略包括:
确定数据生成的方向为沿所述矩阵的横向扩展和/或沿所述矩阵的纵向扩展;
若确定的数据生成的方向为沿所述矩阵的横向扩展,则在所述矩阵的n列向量中选取至少一列作为第一参考向量集;或
若确定的数据生成的方向为沿所述矩阵的纵向扩展,则在所述矩阵的m行向量中选取至少一行作为第一参考向量集。
在第三种可能的实现方式中,结合第一种可能的实现方式,所述根据已获得的样本数据制定数据生成策略还包括:
确定数据生成的方向为沿所述矩阵的横向扩展和/或沿所述矩阵的纵向扩展;
若确定的数据生成的方向为沿所述矩阵的横向扩展,则对所述矩阵的n列向量进行聚类处理,并将聚类处理结果的中心点中的向量作为第一参考向量集;或
若确定的数据生成的方向为沿所述矩阵的纵向扩展,则对所述矩阵的m行向量进行聚类处理,并将聚类处理结果的中心点中的向量作为第一参考向量集。
在第四种可能的实现方式中,根据第二种或第三种可能的实现方式,所述根据所述数据生成策略生成第一数据包括:
记录所述第一参考向量集中每个向量中的非空元素的位置信息;
根据所述第一参考向量集中每个向量中的非空元素选取第一向量集,所述第一向量集中的每个向量不包含空元素;
利用向量相似性根据所述第一向量集生成第二向量集,所述第二向量集中的每个向量不包含空元素;
根据所述参考向量中每个向量中的非空元素的位置信息以及所述第二向量集生成第三向量集;
将所述第三向量集加入所述矩阵中形成新矩阵,将所述新矩阵作为所述第一数据。
在第五种可能的实现方式中,结合第一方面至第一方面的第四种可能的实现方式中的任意一项,在所述将所述数据生成策略发送至从节点时,所述方法还包括:
将所述从节点需要生成数据的数据量及所述从节点向主节点返回完成生成数据消息的时间间隔至所述从节点;
按照所述时间间隔,从所述从节点接收所述数据生成结果,所述完成生成数据消息包括所述从节点已生成的数据量和已完成数据生成的信息。
在第六中可能的实现方式中,结合第五种可能的实现方式,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;中国科学院计算技术研究所,未经华为技术有限公司;中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310027416.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据库连接管理方法及系统
- 下一篇:离合制动器
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置