[发明专利]一种基于k近邻和概率选择主动学习方法在审
申请号: | 201910936977.7 | 申请日: | 2019-09-29 |
公开(公告)号: | CN110674883A | 公开(公告)日: | 2020-01-10 |
发明(设计)人: | 熊伟丽;代学志;马君霞 | 申请(专利权)人: | 江南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 32272 南京禹为知识产权代理事务所(特殊普通合伙) | 代理人: | 吴肖敏 |
地址: | 214122 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 无标签样本 训练集 样本集 标签 不确定度 概率选择 控制平台 人工标记 系统获取 训练模型 预测性能 主动学习 综合考虑 小标记 迭代 邻域 评估 更新 | ||
1.一种基于k近邻和概率选择主动学习方法,其特征在于:包括,
基于工业化控制平台系统获取相应数据,设置近邻k,并计算代表样本个数;
评估样本,并对其进行人工标记;
更新GPR模型和训练集,迭代直到模型精度。
2.如权利要求1所述的基于k近邻和概率选择主动学习方法,其特征在于:所述基于工业化控制平台系统获取相应数据,设置近邻k,并计算代表样本个数的步骤包括:
在工业化控制平台系统获取训练集,将训练集分为有标签样本集和无标签样本集;
设置邻域样本数量k;
根据k值计算无标签样本集中所要标记的代表样本个数。
3.如权利要求2所述的基于k近邻和概率选择主动学习方法,其特征在于:所述有标签样本集和无标签样本集分别为和
其中,nl和nu分别为有标签样本集和无标签样本集样本个数,m为辅助变量个数。
4.如权利要求3所述的基于k近邻和概率选择主动学习方法,其特征在于:所述代表样本个数p的计算公式为:
p=nu/k
式中,nu为无标签样本集样本个数;k为邻域样本数量。
5.如权利要求1~4任一所述的基于k近邻和概率选择主动学习方法,其特征在于:所述评估样本,并对其进行人工标记的步骤:
采用主成分分析对无标签样本集进行子空间集成,同时建立相应的GPR子学习器;
根据所有子学习器的输出计算无标签样本的不确定度,并将其作为样本评估标准;
在邻域信息准则下,通过构建样本的k近邻,挑选出代表样本进行人工标记。
6.如权利要求5所述的基于k近邻和概率选择主动学习方法,其特征在于:所述无标签样本的不确定度的计算公式:
式中,d为对有标签样本集进行子空间划分得到的子集个数;为第i个子空间的预测输出;为d个子空间预测输出的均值;
其中,
其中,所述不确定度最大的无标签样本为xδ。
7.如权利要求6所述的基于k近邻和概率选择主动学习方法,其特征在于:所述在邻域信息准则下,通过构建样本的k近邻,挑选出代表样本进行人工标记的步骤包括:
利用k近邻对所选无标签样本xδ构造样本邻域S;
挑选与邻域中心最相似的样本进行标记;
对被标记的样本进行人工标记;
其中,被标记的样本为代表样本。
8.如权利要求7所述的基于k近邻和概率选择主动学习方法,其特征在于:所述无标签样本xδ的邻域中心为:
式中,k为邻域样本数量,xi为无标签样本xδ邻域中的样本点。
9.如权利要求7或8所述的基于k近邻和概率选择主动学习方法,其特征在于:所述代表样本的选择策略可表示为
式中,xi为无标签样本xδ邻域中的样本点,为无标签样本xδ的邻域中心。
10.如权利要求9所述的基于k近邻和概率选择主动学习方法,其特征在于:所述更新GPR模型和训练集,迭代直到模型精度的步骤包括:
将人工标记的代表样本添加到有标签样本集中,并建立新的GPR模型;
其剩余无标签样本集进入新一轮的迭代,直到模型精度满足要求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910936977.7/1.html,转载请声明来源钻瓜专利网。