[发明专利]一种基于候选标记估计的未标记数据利用方法在审
申请号: | 201811128127.6 | 申请日: | 2018-09-27 |
公开(公告)号: | CN109242039A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 张敏灵;王敬 | 申请(专利权)人: | 东南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李淑静 |
地址: | 211189 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于候选标记估计的未标记数据利用方法,包括以下步骤:S10、就特定分类任务从现实世界分类任务中获取已标记数据与未标记数据,并提取数据特征;S20、根据数据特征估计未标记数据的候选标记集合,基于候选标记集合进一步估计其真实标记;S30、从估计的真实标记中挑选符合要求的相应未标记数据加入已标记数据集,并将其从未标记数据集中剔除;S40、基于扩充的已标记数据集,使用传统监督学习模型训练并返回分类结果;S50、如果用户对分类结果不满意,则基于步骤S30中更新的已标记数据集与未标记数据集,重新执行步骤S20‑S40。本方法借助少量现有已标记数据来构造未标记数据的候选标记集合,能够弥补现实应用中未标记数据不能有效利用的问题。 | ||
搜索关键词: | 标记数据 标记集合 分类结果 模型训练 数据特征 提取数据 现实世界 现实应用 重新执行 分类 剔除 返回 更新 监督 学习 | ||
【主权项】:
1.一种基于候选标记估计的未标记数据利用方法,其特征在于,包括以下步骤:S10、就特定分类任务从现实世界分类任务中获取已标记数据与未标记数据,并提取数据特征;S20、根据数据特征估计未标记数据的候选标记集合,基于候选标记集合进一步估计其真实标记;S30、从估计的真实标记中挑选符合要求的相应未标记数据加入已标记数据集,并将其从未标记数据集中剔除;S40、基于扩充的已标记数据集,使用传统监督学习模型训练并返回分类结果;S50、如果分类结果不满足要求,则基于步骤S30中更新的已标记数据集与未标记数据集,重新执行步骤S20‑S40。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811128127.6/,转载请声明来源钻瓜专利网。