[发明专利]一种基于k近邻和概率选择主动学习方法在审
申请号: | 201910936977.7 | 申请日: | 2019-09-29 |
公开(公告)号: | CN110674883A | 公开(公告)日: | 2020-01-10 |
发明(设计)人: | 熊伟丽;代学志;马君霞 | 申请(专利权)人: | 江南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 32272 南京禹为知识产权代理事务所(特殊普通合伙) | 代理人: | 吴肖敏 |
地址: | 214122 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 无标签样本 训练集 样本集 标签 不确定度 概率选择 控制平台 人工标记 系统获取 训练模型 预测性能 主动学习 综合考虑 小标记 迭代 邻域 评估 更新 | ||
本发明公开了一种基于k近邻和概率选择主动学习方法,包括,基于工业化控制平台系统获取相应数据,设置近邻k,并计算代表样本个数;评估样本,并对其进行人工标记;更新GPR模型和训练集,迭代直到模型精度;所述设置近邻k,并计算代表样本个数的步骤包括:将训练集分为有标签样本集和无标签样本集;设置邻域样本数量k;根据k值计算无标签样本集中所要标记的代表样本个数;本发明所提方法综合考虑了无标签样本集的不确定度和代表性信息,使得挑选样本更加合理,从而以最小标记代价提升训练模型的预测性能。
技术领域
本发明涉及的工业技术领域,尤其涉及一种基于k近邻和概率选择主动学 习方法。
背景技术
在复杂工业过程中,一些过程变量的实时监测与控制对工业生产至关重 要,但由于现有技术条件的限制,使得这些变量很难通过传感器在线测得;实 时精确估计这些变量,软测量技术得到快速发展;常用的软测量模型包括主成 分回归、偏最小二乘回归、支持向量机、人工神经网络和高斯过程回归等;其 中,GPR是基于贝叶斯理论发展起来的建模方法,能够有效地处理复杂回归问 题。
软测量模型基于输入变量和输出变量构建,其中输入变量可以通过传感器 精确测得,然而,由于工业现场的恶劣环境以及经济成本的制约,使得输出变 量难以直接检测;因此,工业过程中存在大量的无标签数据和有限的有标签数 据;传统的软测量模型仅采用有标签样本集建模,没有利用无标签样本集中的 信息,而半监督学习同时利用无标签样本和有标签样本来提升模型性能,很好 地解决了该问题;传统的半监督学习方法包括自训练、协同训练、概率生成模 型和图半监督学习等;半监督学习尽管在一定程度上提升了模型性能,但一般 不考虑专家知识,导致模型精度可能仍然无法满足工业生产需要;而主动学习 根据专家知识对无标签样本进行标记,从而辅助有标签样本进行学习,进一步 改善模型性能;主动学习利用较少的人工标记数据获取模型性能提升;因此, 如何从无标签样本集中挑选出对改善模型性能发挥作用的样本成为主动学习 的关键问题。
围绕这个问题,学者们从不同角度做了大量研究,Ge将GPR模型的输出 方差作为评估指标,挑选方差较大的样本进行人工标记,有效地进行了主动学 习的样本评估,并在迭代过程中获得了相对精确的软测量模型,但该方法仅适 用于GPR模型,Shi等提出了一种基于近似线性依靠的主动学习算法,利用近 似线性依靠度量无标签样本信息,取得了一定的效果,但是该方法没有利用样 本的输出信息,容易造成信息评估上的偏差,Zhou等提出基于分歧集成学习 的主动学习方法,并在分类问题上取得了较好的性能,然而,在上述算法的迭 代过程中,可能会选择到一些相似度较高的样本,从而使软测量模型出现局部 过拟合或泛化能力弱。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较 佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或 省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略 不能用于限制本发明的范围。
针对主动学习的关键问题,即如何从无标签样本集中挑选出对改善模型性 能发挥作用的样本,提出了本发明。
因此,本发明目的是提供一种基于k近邻和概率选择主动学习方法。
为解决上述技术问题,本发明提供如下技术方案:一种基于k近邻和概率 选择主动学习方法,包括,基于工业化控制平台系统获取相应数据,设置近邻 k,并计算代表样本个数;评估样本,并对其进行人工标记;更新GPR模型和 训练集,迭代直到模型精度。
作为本发明所述基于k近邻和概率选择主动学习方法的一种优选方案,其 中:所述基于工业化控制平台系统获取相应数据,设置近邻k,并计算代表样 本个数的步骤包括:
在工业化控制平台系统获取训练集,将训练集分为有标签样本集和无标签 样本集;
设置邻域样本数量k;
根据k值计算无标签样本集中所要标记的代表样本个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910936977.7/2.html,转载请声明来源钻瓜专利网。