[发明专利]一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法有效

申请号：	201710315861.2	申请日：	2017-05-02
公开（公告）号：	CN107292330B	公开（公告）日：	2021-08-06
发明（设计）人：	关东海;魏红强;袁伟伟	申请（专利权）人：	南京航空航天大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	211100 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开的一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法，属于机器学习和数据挖掘领域。本发明将监督和半监督学习结合起来，对于监督学习部分，通过软多重投票方式，产生监督学习噪声识别结果；对于半监督学习部分，基于监督学习产生的纯净数据训练的分类模型，对无标签数据集进行标记，标记后的无标签数据作为训练集，用加权KNN方法对标签数据集进行检测产生噪声识别结果；最终将噪声识别结果结合起来产生最终识别结果。本发明算法还采取迭代方式，每次迭代输入的待测样本为上次迭代时过滤掉噪声后的剩余样本。同传统噪声识别算法比，该发明结合了更多互补信息，同时辅以迭代方式，能更好促进噪声识别准确性。
搜索关键词：	一种基于监督学习双重信息迭代式标签噪声识别算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法，其特征在于，包括以下步骤：步骤1)确定算法输入变量，包括待处理样本集L和无标签样本集U，最大迭代次数maxIter，多次投票次数numVote，噪声识别判定投票信任度numFinalConfodence，随机分块数numCross，分类器个数numClassifier，噪声识别投票信任度numConfidence，判别噪声的信任度阈值ConfidenceThreshold，初始化多次投票次数t＝1，迭代次数m＝1，初始化待处理样本集E＝L；步骤2)将E随机分成numCross个大小一致的子集初始化参数i＝1；步骤3)用集合中样本做训练数据，选择numClassifier个不同的分类算法，训练numClassifier个不同的分类器H1，H2，...，HnumClassifier；步骤4)用H1，H2，...，HnumClassifier对样本集中样本分类，分别计算每个样本的numConfidence，并将计算结果存入一张表中；步骤5)迭代执行步骤2)至4)，每次迭代后i值加1，直到i值等于numCross，停止迭代，计算出这一次投票完成后所有的样本的numConfidence并存入一张表中；步骤6)迭代执行步骤2)至5)，每次迭代后t值加1，直到t＝numVote为止，生成numVote个表；步骤7)综合分析numVote个表，对每个样本的numConfidence进行统计，获得每个样本e的numFinalConfidence(e)，并存入一张表格中。初始化一个En，将numFinalConfidence(e)小于预定的ConfidenceThreshold的样本视为可疑样本存入En；步骤8)将E’＝E‑En作为训练集，基于numclassifier个分类算法，生成numclassifier个分类器，用这些分类器对无标签样本集U进行标记，得到一个样本集；步骤9)将数据集E作为测试集，作为训练集，通过加权KNN算法，计算出每个样本的numFinalConfidence(e)’，并存入命名为numConfidence的表格中；步骤10)将表格和numConfidence的表格中的相同样例的数值，进行相加求平均值，得到最终的Confidence表格，对于数值小于指定阈值ConfidenceThreshold的样本，被视为噪声。设检测到的噪声为则步骤11)迭代执行步骤2)至10)，每次迭代后，m值加1，直到或m＝maxIter为止；步骤12)返回E值，E为删除噪声后的纯净样本集，算法结束。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京航空航天大学，未经南京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710315861.2/，转载请声明来源钻瓜专利网。

上一篇：基于CI-CSP算法的事件想象分类方法
下一篇：基于无监督特征学习的无参考屏幕图像质量评价方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法有效

专利文献下载