[发明专利]基于神经网络模型的大规模数据沿袭方法在审
申请号: | 202010988710.5 | 申请日: | 2020-09-18 |
公开(公告)号: | CN112131303A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 李杰;叶一舟 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/26 | 分类号: | G06F16/26;G06N3/04;G06N3/06;G06N3/08 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘子文 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 神经网络 模型 大规模 数据 沿袭 方法 | ||
本发明公开一种基于神经网络模型的大规模数据沿袭方法,包括以下步骤:(1)生成网络训练集;包括数组排序、维度标准划分和训练子集划分;根据数据集中不同维度中的值对数据集中的数据进行排序;为每个维度确定一个划分标准以解决样本穷举问题;将训练集分为许多较小的训练子集;(2)训练神经网络模型;使用分层的网络结构代替传统的神经网络结构,以解决由于样本数据差别较大造成的误差问题;分层结构具体包括网络选择器和子网两大部分;(3)可视交互与沿袭;具体包括空间散点图、时空投影视图和模式对比视图;用于对数据集进行可视化交互探索,使用可视化的方式方便用户对数据结果进行探索;并允许用户通过沿袭的方式探索数据来源。
技术领域
本专利主要涉及机器学习和数据可视化领域,具体涉及对大规模数据集的实时交互及神经网络模型优化的方法。
背景技术
近年来研究人员面对的数据集所包含的数据量级呈指数型增长[4],这无疑给交互式可视化探索与沿袭带来了麻烦。最近提出的技术使分析人员可以实时地交互式地探索大规模数据集[5],但是这些技术忽略了人们可能关心隐藏在统计数据分布背后的真实数据[10]。我们从可视化实现了数据的反向生成,因此视觉视图将不再局限于显示数据的统计信息,它还可以用作生成更复杂的视觉视图的数据,或者探索视图子集中数据的详细分布。
关于数据沿袭的研究已经在数据库领域进行了一段时间[7]。传统方法通过扩展基本数据模型来捕获源信息[9],由此带来的缺点是显而易见的:必须使用与实际数据不同的模型来存储访问源。Miles等人[8]提出,由数据产生的产品和描述可能隐藏结果的来源以及如何产生结果的细节,他们研究并讨论了数据来源如何可以帮助科学家进行实验。BorisGlavic等人[6]提出了使用查询重写为源元组标注结果元组的方法,并在数据库中证明了其可行性。K.Dursun等人[1]提出了一种新的中间体重用模型,该模型可缓存在查询处理过程中实现的内部物理数据结构。这项工作通过研究数据库中中间体的重用来加速分析查询的处理。R.Ikeda等人[2]的panda实现了物源捕获,存储,运算符和查询。他们将数据沿袭应用于诸如调试,审计,数据集成,安全性,迭代分析和清理之类的任务。在他们的基础上,FotosPsallidas等人[3]提出了Smoke,这是一个内存数据库引擎,不需要牺牲沿袭捕获开销。Smoke将哈希表形式的谱系情况以哈希表的形式预先存储,以节省谱系查询带来的时间开销,可以满足实时视觉交互要求。
上述的工作主要使用较大规模的数据集,然而这些工作都存在一些缺点和不足:首先,一些工作为每个输入创建哈希索引以加快沿袭查询,但是与此同时,随着数据大小的增加,哈希表的大小也会增加,这可能会带来诸如内存耗尽的问题。其次,最新工作使用一种方法在内存中实时实现哈希表,以加快查询速度,但即使此方法优化了实时生成哈希表的时间,它仍然带来了不可避免的存储开销和额外的查询时间。同时,上述工作无法使用查询数据再次生成可视化,它只能在多个可视化视图之间建立连接。
发明内容
本发明的目的是为了解决现有技术中的以下问题。1.使用神经网络模型取代传统索引结构,从而减少查询带来的时间开销与存储开销。2.对于大量数据,神经网络无法很好地满足查询和索引之间的关系,因此需要使用层次结构来解决此问题。分层结构包括第一层网络选择器,用于查找查询对应的子网;以及第二层子网络,用于计算并输出查询结果。3.大规模数据集往往包含多个维度,用户可能不仅需要约束一个维度,所以要解决同时满足多维约束的沿袭查询,需要对不同的维度制定不同的划分标准,并为每一个维度分别训练神经网络模型。因此,本发明提出了一个基于神经网络模型的框架以沿袭探索大规模数据集。首先,框架采用了一个基于神经网络模型的索引结构,满足实时交互式沿袭查询。其次,框架集成了层次结构网络模型以及哈希表,实现对误差数据的处理。最后,设计支持对该数据结果进行快速查询及交互的可视化界面。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010988710.5/2.html,转载请声明来源钻瓜专利网。