[发明专利]一种特征提取和分类任务分离的数据不均衡处理方法有效

专利信息
申请号: 202110293696.1 申请日: 2021-03-19
公开(公告)号: CN112966767B 公开(公告)日: 2022-03-22
发明(设计)人: 吴志强;吕晨 申请(专利权)人: 焦点科技股份有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 陈建和
地址: 210032 江苏省南京*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 特征 提取 分类 任务 分离 数据 均衡 处理 方法
【说明书】:

发明公开了一种特征提取和分类任务分离的数据不均衡处理方法,其特征在于,包括步骤一:准备用于模型训练的分类数据集,判定数据是否存在长尾分布;步骤二:利用深度神经网络训练一个包含两个分支网络的模型,模型将表征特征与分类特征动态融合,并进行分类;步骤三:通过测试数据集对模型评估分析,在测试数据集上计算模型的准确率和召回率,通过准确率和召回率的值来判定模型的性能;步骤四:对验证测试好的模型进行部署测试,在真实的场景中,对抓取的类别图片进行分析,统计分析分类的效果。达到在不改变原始数据分布的情况下,很好的解决分类任务中长尾分布的问题的效果。

技术领域

本发明涉及计算机深度学习领领域,特别是涉及一种特征提取和分类任务分离的数据不均衡处理方法。

背景技术

自然界中存在着比正太分布还要广泛的一种随机变量的分布——长尾分布。例如在做动物分类的时候,猫狗等常见的数据可以比较轻松的获得,考虑到数据的均衡,一些比较稀有的动物数据采集将变得非常困难,采样结果往往与稀有度呈现指数分布,越稀有的物种数量也越少。在现实情形中,大多数情况下统计的数据都会呈现为长尾分布。深度学习的训练是基于数据来驱动的,因此在训练过程中,如果能很好的解决数据中存在的长尾问题,不仅能够提升模型的稳定性,也对模型的性能有着显著的提升。

在实际的模型训练过程中,如果数据中存在着长尾分布,通常有两种解决方案,一种是数据的采样,另外一种是损失函数的设计。重采样主要是在模型训练过程中,对于数据量少的样本重复采样,这样可以保证每个类别的样本数量相同。损失函数的设计主要是通过控制损失的权重来实现的,例如数据量少的类损失权重相对比较大。这两种方式都可以在一定程度上解决长尾分布的问题。但是针对于更加一般的场景上述两种方式不能很好的解决长尾分布。

因此,需要一种特征提取和分类任务分离的数据不均衡处理方法。

发明内容

本发明的一种特征提取和分类任务分离的数据不均衡处理方法,针对数据集中存在的长尾问题进行了分析和方法的设计,通过对训练数据集中样本数量的统计分析,利用神经网络训练出一个表征学习和分类学习分离的模型。这个模型可以在不改变原始数据分布的情况下,很好的解决分类任务中长尾分布的问题。模型在特征提取部分共享权重,然后针对表征任务和分类任务设计不同的网络结构来抽象特征,最后将两部分特征进行融合,提升模型最后的性能。

本发明所要解决的技术问题是克服现有技术的不足,提供一种特征提取和分类任务分离的数据不均衡处理方法。

为解决上述技术问题,本发明提供一种特征提取和分类任务分离的数据不均衡处理方法,其特征在于,包括如下步骤:

步骤一:准备用于模型训练的分类数据集,对分类数据集统计分析,可视化数据的分布,判定数据是否存在长尾分布;对于采集均衡的数据集可以按着一般的分类模型定义思路来训练模型,如果可视化的分布结果有着明显的倾斜呈长尾分布可以按第二步的思路来做。

步骤二:利用深度神经网络训练一个包含两个分支网络的模型,其中,分支网络一用于学习图片的表征特征,分支网络二用于学习图片的分类特征,整个模型的后半部分将表征特征与分类特征动态融合,并进行分类;在两个分支网络的训练过程中,分支网络一接受原始采样分布的数据作为输入,分支网络二接受原始数据反比的采样分布作为输入;

步骤三:通过测试数据集对模型评估分析,在测试数据集上计算模型的准确率和召回率,通过准确率和召回率的值来判定模型的性能;

步骤四:对验证测试好的模型进行部署测试,在真实的场景中,对抓取的类别图片进行分析,统计分析分类的效果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110293696.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top