[发明专利]非迭代式大数据半监督学习方法、系统、存储介质及终端在审
申请号: | 202010100021.6 | 申请日: | 2020-02-18 |
公开(公告)号: | CN111612164A | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 徐计;赵芳云;路勇;张仕学;贺道德 | 申请(专利权)人: | 贵州工程应用技术学院 |
主分类号: | G06N20/10 | 分类号: | G06N20/10;G06K9/62 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 徐秋平 |
地址: | 551700 *** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 非迭代式大 数据 监督 学习方法 系统 存储 介质 终端 | ||
本发明提供一种非迭代式大数据半监督学习方法、系统、存储介质及终端,包括以下步骤:计算数据集的距离矩阵和所述数据集中每个数据的局部密度向量,并根据所述距离矩阵和所述局部密度向量计算每个数据到引领节点的距离向量和引领节点的下标向量;基于所述距离向量和所述下标向量构建最优引领森林;确定所述最优引领森林中每棵子树的各个节点的层次编号;基于所述层次编号在各棵子树上分三个阶段执行标签传播,以获取数据的回归结果或分类结果。本发明的非迭代式大数据半监督学习方法、系统、存储介质及终端基于最优引领森林进行标签传播的半监督学习,从而保证了标签类别或数值的准确性,且极大地提高了半监督学习的效率,降低了算法的时间复杂度。
技术领域
本发明涉及大数据智能分析的技术领域,特别是涉及一种非迭代式大数据半监督学习方 法、系统、存储介质及终端。
背景技术
在大数据时代,未标记数据从各行业不断采集得到或生成出来,但是数据的标签往往需 要人工标注获得,费时费力,因而有标签的数据通常较为稀少。这就是近年来半监督学习 (Semi-Supervised Learning,SSL)一直备受关注的原因。半监督学习是模式识别和机器学习 领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大 量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将 会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习正 越来越受到人们的重视。在半监督学习的诸多方法中,图半监督学习方法具有表示的直观 性,并且便于通过研究矩阵运算来改善性能。
基于图的半监督学习(Graph-based Semi-Supervised Learning,GSSL)方法是半监督学习 方法的一个重要范型。现有技术中,几乎所有的基于GSSL都将以下两个基础的假设作为问 题描述的依据:(1)针对已标记样本,希望按照邻域内样本传播生成的标签与真实的标签误 差尽量小,这一项称为“聚类假设”;(2)针对全体样本,希望相邻的样本生成的标签都尽 量相似,这一项称为“流形假设”。一般通过最小化上述两项假设来实现标签传播。然而, 现有技术中的GSSL方法存在两个明显的局限性:
(1)由于通过迭代优化的方式获得预设目标函数的最优解(或次优解),导致训练的时 间开销较大,学习效率低;
(2)由于求解过程依赖于给定的图结构,不便于构建增量式学习算法;当数据点发生新 增或删除的情况时,整个学习过程需要从头运行。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种非迭代式大数据半监督学习 方法、系统、存储介质及终端,基于最优引领森林(Optimal Leading Forest,OLeaF)进行标 签传播的半监督学习,从而保证了标签类别或数值的准确性,且极大地提高了半监督学习的 效率,降低了算法的时间复杂度。
为实现上述目的及其他相关目的,本发明提供一种非迭代式大数据半监督学习方法,包 括以下步骤:计算数据集的距离矩阵和所述数据集中每个数据的局部密度向量,并根据所述 距离矩阵和所述局部密度向量计算每个数据到引领节点的距离向量和引领节点的下标向量; 基于所述距离向量和所述下标向量构建最优引领森林;确定所述最优引领森林中每棵子树的 各个节点的层次编号;基于所述层次编号在各棵子树上分三个阶段执行标签传播,以获取数 据的回归结果或分类结果。
于本发明一实施例中,还包括对数据集中的数据进行预处理,并针对预处理后的数据计 算所述距离矩阵和所述局部密度向量。
于本发明一实施例中,所述预处理包括数据的合并、补齐中的一种或组合。
于本发明一实施例中,计算数据集的距离矩阵和局部密度向量,并根据所述距离矩阵和 所述局部密度向量计算每个数据到引领节点的距离向量和引领节点的下标向量包括以下步 骤:
将所述数据集拆分成一定数量个大小均衡的子集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州工程应用技术学院,未经贵州工程应用技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010100021.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:车辆路径处理
- 下一篇:用于以致动器方式打开盖的致动装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置