[发明专利]数据分类方法、装置以及计算机可读存储介质在审
申请号: | 202011364058.6 | 申请日: | 2020-11-27 |
公开(公告)号: | CN112465031A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 姚俊荣 | 申请(专利权)人: | 江苏云从曦和人工智能有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 屠晓旭;宋宝库 |
地址: | 215021 江苏省苏州市苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 分类 方法 装置 以及 计算机 可读 存储 介质 | ||
本发明涉及数据分类处理技术领域,具体提供了一种数据分类方法、装置以及计算机可读存储介质,旨在解决如何提高数据分类准确性的技术问题。为此目的,根据本发明实施例的方法,可以利用预先基于对训练样本进行随机采样与逆采样得到的样本的特征融合结果训练得到的数据分类模型,对待分类数据进行数据分类,根据数据分类的结果获取待分类数据的数据类别。根据逆采样样本的特征进行模型优化,可以提高模型对不平衡训练样本内小类别样本的分类学习能力;根据随机采样样本的特征进行模型优化,可以提高模型对不平衡训练样本内大类别样本的分类学习能力,从而使训练好的数据分类模型能够对待识别数据进行准确地数据分类。
技术领域
本发明涉及数据分类处理技术领域,具体涉及一种数据分类方法、装置以及计算机可读存储介质。
背景技术
在利用训练集对分类模型进行模型训练时,训练集内样本类别的分布情况,会极大地影响分类模型的训练效果。具体而言,如果训练集内一部分类别样本(简称为小类别)的数量远远小于其他类别样本(简称为大类别)的数量,那么在利用机器学习算法对分类模型进行训练时,由于使分类模型只对大类别样本进行分类学习会显著提高模型的分类准确率,因此机器学习算法会使分类模型放弃或减少对小类别样本的分类学习,最终导致在利用训练好的分类模型对属于小类别的测试样本进行类别识别时,会更加倾向于识别该测试样本属于大类别。例如:如果训练集内包括1个A类样本和99个B类样本,由于只对B类样本进行分类学习会使分类模型得到最高99%的分类准确率,因此机器学习算法会使分类模型放弃对A类样本的分类学习,导致训练好的模型无法识别出A类别数据。
发明内容
为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决如何提高数据分类准确性的技术问题的数据分类方法、装置以及计算机可读存储介质。
第一方面,提供一种数据分类方法,所述方法包括:
获取待分类数据;
利用预设的数据分类模型对所述待分类数据进行分类,以获取所述待分类数据的数据类别;
其中,所述预设的数据分类模型是基于对训练样本进行随机采样与逆采样得到的样本的特征融合结果训练得到的,所述训练样本中一部分类别样本的数量远小于其他类别样本的数量。
在上述数据分类方法的一个技术方案中,所述预设的数据分类模型包括数据输入模块、特征提取模块、特征融合模块和分类器;所述特征提取模块包括多个顺次连接的特征提取子模块并且首个特征提取子模块与所述数据输入模块连接,最后一个特征提取子模块与所述特征融合模块连接;所述最后一个特征提取子模块包括结构相同的主特征提取单元和附属特征提取单元;
所述特征提取模块被配置成提取输入数据的数据特征;
所述特征融合模块被配置成对所述主特征提取单元与所述附属特征提取单元输出的数据特征进行特征融合,得到特征融合结果;
所述分类器被配置成根据所述特征融合结果进行数据分类。
在上述数据分类方法的一个技术方案中,所述预设的数据分类模型是通过下列方式训练得到的:
分别对训练样本进行随机采样与逆采样,得到随机采样样本和逆采样样本;
利用下式所示的模型损失函数L并且根据所述特征融合模块输出的所述随机采样样本与所述逆采样样本的特征融合结果,计算所述数据分类模型的模型损失值;
L=α1LCE(Pmix,ynormal)+(1-α1)LCE(Pmix,yreverse)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏云从曦和人工智能有限公司,未经江苏云从曦和人工智能有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011364058.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置