[发明专利]一种基于密度不平衡样本数据的材料性能预测方法及系统在审
申请号: | 202110922801.3 | 申请日: | 2021-08-12 |
公开(公告)号: | CN113628701A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 钱权;董甲 | 申请(专利权)人: | 上海大学 |
主分类号: | G16C60/00 | 分类号: | G16C60/00;G16C20/70;G06K9/62 |
代理公司: | 北京方圆嘉禾知识产权代理有限公司 11385 | 代理人: | 冯静 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 密度 不平衡 样本 数据 材料 性能 预测 方法 系统 | ||
本发明涉及一种基于密度不平衡样本数据的材料性能预测方法及系统。本发明首先定位第一材料数据集和第二材料数据集的边界样本,然后利用原始的样本数据集训练第一材料分类模型,利用边界样本训练第二材料分类模型,进而将第一材料分类模型和第二材料分类模型进行融合,利用融合后的集成模型进行材料性能的预测分类,实现了边界样本的定位,并通过基于边界样本的单独训练,提升了对少数类样本预测的准确性。
技术领域
本发明涉及材料性能研究技术领域,特别涉及一种基于密度不平衡样本数据的材料性能预测方法及系统。
背景技术
目前类别不平衡数据挖掘领域的研究已变得越来越重要。这是因为现实生活中的数据集基本是不平衡的,只是不平衡率不同,并且这种不平衡已经严重影响到分类算法的性能。不平衡分类的基本问题是不平衡数据造成多数机器学习算法性能降低。大多数机器学习算法是根据平衡数据集提出的,并且以总体分类准确率为分类算法的评价指标,因此对一些复杂的不平衡数据集进行处理时,这些传统分类算法不能充分地反映出数据的分布特征。因为识别少数类样本会比识别多数类样本要困难很多,很难确定少数类样本的真实决策边界,所以传统分类算法往往会出现将所有的样本划分为多数类的情况,而少数类的分类预测效果则很差。因此那些基于平衡数据提出的分类算法不适合处理不平衡数据分类任务。
在数据挖掘领域中集成分类是很有效的一种方法,在不平衡数据分类中,传统基于集成学习的分类方法,由于没有考虑不平衡数据分布的特点,也没有充分利用集成分类差异化学习的优势,导致在不平衡数据分类效果上不是很明显。
在材料领域中,缩短具有预期性能的新材料开发周期是现今材料工业界所迫切需要的。在大部分材料数据中,那些符合预期性能的材料数据往往会很少。现有的普遍做法是通过SMOTE方法在数据预处理上对少数类样本进行扩充,来增加少数类样本的数量。虽然这种方法在数据层面上使数据集得到平衡,但是这种方法容易产生一些不正确的样本,干扰模型对少数类的预测。
发明内容
本发明的目的是提供一种基于密度不平衡样本数据的材料性能预测方法及系统,以实现边界样本的定位,并通过基于边界样本的训练,提升对少数类样本预测的准确性。
为实现上述目的,本发明提供了如下方案:
一种基于密度不平衡样本数据的材料性能预测方法,所述预测方法包括如下步骤:
根据样本的类别标签将样本数据集划分为不符合预期性能的第一材料数据集和符合预期性能的第二材料数据集;所述第一材料数据集中样本数据的数量大于第二材料数据集中样本数据的数量;
检测所述第一材料数据集和所述第二材料数据集中的属于边界样本的样本数据,组成第三材料数据集;
利用所述样本数据集训练第一材料分类模型,利用所述第三材料数据集训练第二材料分类模型;
并行集成训练后的第一材料分类模型和第二材料分类模型,获得集成模型;
利用所述集成模型进行材料性能的预测分类。
可选的,所述检测所述第一材料数据集和所述第二材料数据集中的属于边界样本的样本数据,组成第三材料数据集,具体包括:
基于近邻计算方法确定所述第二材料数据集中的属于边界样本的样本数据,组成边界域;
将所述边界域和所述第一材料数据集合并获得融合样本集;
根据所述边界域,基于欧式距离计算方法确定所述融合样本集中的属于边界样本的样本数据,组成第三材料数据集。
可选的,所述基于近邻计算方法确定所述第二材料数据集中的属于边界样本的样本数据,组成边界域,具体包括:
基于近邻计算方法,计算第二材料数据集中每个样本数据在所述样本数据集中近邻的样本数据,获得第二材料数据集中每个样本数据的近邻的样本数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110922801.3/2.html,转载请声明来源钻瓜专利网。