[发明专利]一种基于张量链分解的流式数据增量处理方法及装置在审
申请号: | 202010001952.0 | 申请日: | 2020-01-02 |
公开(公告)号: | CN111241076A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 陈彦萍;夏虹;靳晓东;王忠民;高聪;吕宁 | 申请(专利权)人: | 西安邮电大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2455;G06F16/2458;G06F17/16 |
代理公司: | 西安嘉思特知识产权代理事务所(普通合伙) 61230 | 代理人: | 尹晓雪 |
地址: | 710121 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 张量 分解 数据 增量 处理 方法 装置 | ||
本发明涉及一种基于张量链分解的流式数据增量处理方法及装置,其中,处理方法包括步骤:构建多源异构数据的高阶统一张量表示模型;根据高阶统一张量表示模型将原始数据表示为原始张量,并对原始张量进行张量链分解,得到第一张量链格式;根据高阶统一张量表示模型将新增数据表示为新增张量,并对新增张量进行张量链分解,得到第二张量链格式;根据第一张量链格式和第二张量链格式计算更新张量的张量链分解结果。该处理方法不仅利用新増数据计算结果对原始处理结果快速和准确地更新,而且能系统地描述出新増数据与己有计算结果之间的内在联系,同时解决了增量式处理的中间结果爆炸和重复计算两大问题,提高了大数据的处理效率。
技术领域
本发明属于大数据处理方法,具体涉及一种基于张量链分解的流式数据增量处理方法及装置。
背景技术
在传统的工业云架构中,来自物理设备的所有数据都会传输到云端进行存储和高级分析。由于云平台与网络边缘的设备相比具有更高的计算能力,因此将计算密集型任务转移到核心云计算平台是数据处理的有效方式。工业大数据来源多样,数据结构不一,具有不同的属性和标准,有生产周期数据,也有来自企业内部的关系型数据,还有视频监控数据、XML日志等非结构化或者半结构化的数据。
对大数据进行高效分析、挖掘其蕴含的内在规律的前提基础是海量、多源、异构数据的统一表示方式。而非结构化、半结构化和结构化数据在编码方法、存储格式、数据特征等方面不尽相同。不同的数据采集平台绑定了不同的数据格式,各个领域的数据在形式、语义、标识上都存在显著差异。这些数据形成了一个个的信息孤岛,无法统一量化,也难以整体分析,需要一个简洁的模型将异构数据表示在统一的空间中。
大数据时代的数据类型多样,规模巨大,内在结构和关联关系复杂,大数据中往往包括大量的不一致、不完全、重复冗余以及噪音数据,这些低质量的数据在分析挖掘过程中极大地影响了算法的效率和计算结果的准确性,需要研究有效的方法从低质量的原始数据中提取高质量核心数据。现有大数据规模庞大,而且不停地生成,不断地増加,具有流式数据的特点,从而导致出现中间计算结果爆炸和重复处理的问题。
张量是一种大数据分析工具,在复杂、高阶、多维数据的表示和处理方面具有突出优势。基于张量的大数据分析方法可有效实现数据表示、存储、计算、分析、应用等一系列功能。但是基于张量的大数据分析方法仍面临诸多挑战,如高阶张量引起的维度灾难问题、流式数据引起的重复计算问题、巨大规模引起的计算耗时问题、繁杂计算引起的高能耗问题、关系复杂引起的难以分析问题等。
在基于张量的大数据分析和处理方法中,张量分解是一种重要的研究手段,其中最为普遍又很重要的操作是奇异值分解。针对在低维空间的奇异值分解,已有学者提出了一些增量分解方法,如增量式奇异值分解方法。关于增量数据处理的研究方法,当前大多研究是集中在直接通过增量数据进行计算和推理;例如Sarwar在动态增长的数据流上,利用奇异值分解理论对数据进行降维处理;Gorrel利用增量奇异值分解更新历史数据从而得到实时的核心数据集合,然后针对核心数据集合进行快速计算从而及时提供服务。此外,因为大数据中包含着大量的噪音和冗余数据,应用高阶奇异值分解技术求取核心数据集Coreset的方法进行数据快速计算也逐渐成为研究热点。在高维空间,对增量数据进行分解主要有基于投影的增量式高阶奇异值分解方法,以及基于Jacibo旋转实现增量式高阶奇异值分解方法。
针对大数据在时间上延续性很强,在结构上与历史数据非常相似的特征,有研究人员提出增量张量流的方法,应用高阶张量分解技术或高阶奇异值分解方法提取高价值数据,这种方法也被应用到社会标签推荐系统中。数据增量处理过程中可以对高维数据进行分块,采用Kruskal置换对张量进行分割是经典的处理方法,而且Khatri-Rao乘积运算能够保证分割后的张量展开矩阵列向量秩在计算前后的不变性。但是目前这些对降维大数据増量处理的研究方法主要考虑对动态更新数据进行快速处理,很少考虑利用新増数据计算结果对原始处理结果快速和准确更新,也未能系统地描述出新増数据与己有计算结果之间的相互关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安邮电大学,未经西安邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010001952.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置