[发明专利]一种已标注样本的维护方法及双向学习交互式分类方法有效
申请号: | 201510046891.9 | 申请日: | 2015-01-29 |
公开(公告)号: | CN104657745B | 公开(公告)日: | 2017-12-15 |
发明(设计)人: | 张晓宇;王树鹏;吴广君 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/30 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 司立彬 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种已标注样本的维护方法及双向学习交互式分类方法。本方法一方面采用正向学习从未标注集中选取最有价值的样本,另一方面采用反向学习从已标注集中检测并处理导致模型性能退化潜在噪声,从而优化改善已标注集;本发明通过正向学习与反向学习的有机结合、借助人机交互机制,获得高效、优化的海量数据分类模型,对未标注样本进行分类。本发明通过正向学习与反向学习的有机结合,在高效利用标注信息的同时自动优化标注信息,实现高效化、智能化的交互式分类。 | ||
搜索关键词: | 一种 标注 样本 维护 方法 双向 学习 交互式 分类 | ||
【主权项】:
一种双向学习交互式分类方法,其步骤为:1)基于已标注样本集L进行模型训练,得到一样本分类模型;2)分别计算未标注集U中每个样本在标注后样本分类模型的期望误差,选取期望误差小于设定阈值的样本或期望误差最小的若干个样本作为正向样本;3)对于该已标注样本集L中的每一样本x,从该已标注样本集L中去除该样本x,然后利用剩余样本计算该样本分类模型的期望误差InfoBL(x);4)根据步骤3)的计算结果,选取期望误差小于设定阈值的样本或期望误差最小的若干个样本作为反向样本;5)对步骤2)所选正向样本进行标注后加入到已标注样本集L中;从该已标注样本集L中删除步骤4)所选反向样本;然后利用更新后的已标注样本集L进行模型训练,更新所述样本分类模型;6)循环迭代执行步骤2)~5)设定次数后,利用最终得到的样本分类模型对未标注样本进行分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510046891.9/,转载请声明来源钻瓜专利网。