[发明专利]一种基于候选标记估计的未标记数据利用方法在审
申请号: | 201811128127.6 | 申请日: | 2018-09-27 |
公开(公告)号: | CN109242039A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 张敏灵;王敬 | 申请(专利权)人: | 东南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李淑静 |
地址: | 211189 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标记数据 标记集合 分类结果 模型训练 数据特征 提取数据 现实世界 现实应用 重新执行 分类 剔除 返回 更新 监督 学习 | ||
本发明公开了一种基于候选标记估计的未标记数据利用方法,包括以下步骤:S10、就特定分类任务从现实世界分类任务中获取已标记数据与未标记数据,并提取数据特征;S20、根据数据特征估计未标记数据的候选标记集合,基于候选标记集合进一步估计其真实标记;S30、从估计的真实标记中挑选符合要求的相应未标记数据加入已标记数据集,并将其从未标记数据集中剔除;S40、基于扩充的已标记数据集,使用传统监督学习模型训练并返回分类结果;S50、如果用户对分类结果不满意,则基于步骤S30中更新的已标记数据集与未标记数据集,重新执行步骤S20‑S40。本方法借助少量现有已标记数据来构造未标记数据的候选标记集合,能够弥补现实应用中未标记数据不能有效利用的问题。
技术领域
本发明涉及未标记数据利用方法,属于弱监督信息下多分类任务技术领域,具体涉及一种基于候选标记估计的未标记数据利用方法。
背景技术
互联网技术的蓬勃发展引领世界走向一个数据爆炸的时代,若能获取足量已标记数据,基于传统监督学习方法即可使学习系统获得极优的泛化性能。然而由于现实世界中待标注数据的规模与标注工作所涉及的领域知识难度大,例如,人脸识别需要百万级数据以提升系统性能,医学图像标注工作需要医者丰富的领域知识,现实任务中获取大量已标记样本往往十分困难,而未标记数据相对容易获取。因此如何有效利用未标记数据提升学习系统的泛化性能具有重要研究意义。
现实世界中,未标记数据由于没有显示的标注信息而难以有效利用,实际上,未标记数据是已标记数据的同源数据集,它与已标记数据联系密切且同样包含表示数据分布的重要信息。目前已有的未标记数据利用方法多借助于半监督学习技术,比如半监督支持向量机,其基本思想是找到能使两类样本分开并且穿过数据低密度区域的划分超平面;或者基于图的半监督学习方法与协同训练方法等等,这些方法中对未标记数据没有进行有效利用。
发明内容
发明目的:针对现有技术的不足,本发明提出一种基于候选标记估计的未标记数据利用方法,从构造未标记样本的候选标记集合出发,提出一种求解半监督学习问题的新思路,能够实现对未标记数据的有效利用。
技术方案:本发明所述的一种基于候选标记估计的未标记数据利用方法,该方法包括以下步骤:S10、就特定分类任务从现实世界分类任务中获取已标记数据与未标记数据,并提取数据特征;S20、根据数据特征估计未标记数据的候选标记集合,基于候选标记集合进一步估计其真实标记;S30、从估计的真实标记中挑选符合要求的相应未标记数据加入已标记数据集,并将其从未标记数据集中剔除;S40、基于扩充的已标记数据集,使用传统监督学习模型训练并返回分类结果;S50、如果分类结果不满足要求,则基于步骤S30中更新的已标记数据集与未标记数据集,重新执行步骤S20-S40。
其中,所述步骤S10中,用户选取的分类数据集为D=Dl∪Du,其中Dl={(xi,yi)|1≤i≤l}表示已标记数据集,l为已标记的样本个数,yi∈{y1,y2,…,yq}为样本xi所对应的类别标记,q为标记类别数;Du={(xj|l+1≤j≤l+u}表示未标记样本集,其中u为未标记的样本个数,记l+u=m且l<<u。
所述步骤S20包括以下步骤:
S21、构建(l+u)×q维的二值非负标记矩阵,表示数据集对应的候选标记集合,其中第j行表示xj对应的候选标记集合;
S22、使用基于实例的方法并进行迭代的标记传播,基于候选标记集合进一步估计未标记数据的真实标记。
优选地,所述步骤S21包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811128127.6/2.html,转载请声明来源钻瓜专利网。