[发明专利]基于新标签发现和标签增量学习的动态多标签分类方法在审
申请号: | 201810470711.3 | 申请日: | 2018-05-17 |
公开(公告)号: | CN108717552A | 公开(公告)日: | 2018-10-30 |
发明(设计)人: | 吴骏;李永春;闫梦奎;陈港;李宁 | 申请(专利权)人: | 南京大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 彭雄 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于新标签发现和标签增量学习的动态多标签分类方法,在初始阶段,根据初始数据基于pairwise label ranking loss和误分类损失建立初始分类模型和初始集成聚类模型;数据流预测阶段,将具有新标签的样本放入一个缓冲区存储;模型更新阶段,构建新标签的子模型,将新标签子模型更新到分类模型中,并基于新标签样本对集成聚类模型更新。该方法不仅可以及时发现数据流中数据诞生的新标签,还避免了在数据流中存储大量的数据,只需要缓存一定的数据作为更新即可,进一步避免了重新训练模型导致的时间成本问题,同时解决了动态多标签分类问题中新标签产生的问题并在数据流中维持较高分类性能。 | ||
搜索关键词: | 标签 数据流 标签分类 分类模型 聚类模型 增量学习 子模型 样本 更新 存储 缓存 标签产生 初始数据 分类性能 模型更新 时间成本 训练模型 缓冲区 发现 放入 构建 分类 预测 | ||
【主权项】:
1.一种基于新标签发现和标签增量学习的动态多标签分类方法,其特征在于,包括如下步骤:步骤1,初始化阶段:根据初始数据基于pairwise label ranking loss和误分类损失建立初始分类模型以及基于k‑means的集成聚类新标签发现模型;步骤2,数据流预测阶段:对于数据流中的每一个新样本,经过新标签发现模型判断是否具有新标签,将具有新标签的样本放入一个缓冲区存储,然后传递给分类模型判断分类标签;步骤3,模型更新阶段:当缓冲区达到设定的阈值,针对新标签基于pairwise label ranking loss和误分类损失构建新标签子模型,将新标签子模型更新到分类模型中,并基于新标签样本对新标签发现模型更新;其中将新标签子模型更新到分类模型包括如下步骤:S301、使用一个线性模型来表示新标签的分类模型:![]()
![]()
其中,hnew(x)表示对线性模型的输出值按照φ(x)取值,
表示新标签的权值向量的转置,bnew表示新标签的偏移值,fnew(x)表示新标签的线性模型;S302、基于Buffer1和Buffer2的数据优化下列函数:![]()
R(new)表示在标签空间中有多少不相关标签的排序排在新标签前面:
其中,B1表示Buffer1中的样本,B2表示Buffer2中的样本,εnew表示对新标签在第j个样本上的惩罚因子,wnew表示新标签的权值向量,xj表示第j个样本的向量,ynew,j表示第j个样本新标签,fnew(xj)表示线性模型对第j样本的输出值,R(new)表示在标签空间中有多少不相关标签的排序排在新标签前面,c表示一个变量;S303、使用梯度下降法优化得到
和bnew后,就得到了新标签的分类模型,然后将起集成到分类模型中,使得分类模型对新标签也具有分类能力。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810470711.3/,转载请声明来源钻瓜专利网。