[发明专利]一种基于孤立森林学习的不平衡数据集的预测方法在审

申请号：	202010837636.7	申请日：	2020-08-19
公开（公告）号：	CN112070125A	公开（公告）日：	2020-12-11
发明（设计）人：	王竹荣;牛亚邦;黑新宏	申请（专利权）人：	西安理工大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/12;G06Q30/02;G06Q40/02
代理公司：	西安弘理专利事务所 61214	代理人：	罗笛
地址：	710048 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于孤立森林学习不平衡数据预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于孤立森林学习的不平衡数据集的预测方法，其特征在于，包括以下步骤：

步骤1、接收预测请求；

步骤2、采集数据，明确数据集中的特征与标签，及少数类样本和多数类样本的数量；

步骤3、将数据集中的非数值特征列以及标签列转变为分类数值；

步骤4、用多数类加权的少数类过采样技术合成少数类样本，形成平衡数据集；

步骤5、用孤立森林算法对平衡数据集进行异常点的识别和去除；

步骤6、将去除异常点后的平衡数据集进行数据标准化，划分训练数据集和测试数据集；

步骤7、构建并用训练数据集训练支持向量机分类器模型；

步骤8、通过遗传算法调整支持向量机分类器模型的超参数，训练完成后，得到训练好的预测模型；

步骤9，将测试数据集输入训练完成的预测模型得到预测结果。

2.如权利要求1所述的一种基于孤立森林学习的不平衡数据集的预测方法，其特征在于，所述步骤4具体包括以下步骤：

步骤4.1、对每个少数类样本x_i∈S_min，通过将x_i与其他所有样本根据公式(1)进行邻居欧氏距离计算，按欧氏距离由小到大取前到k1个邻居样本元素；若这k1个邻居没有少数类样本，该样本为噪声样本直接删掉，否则予以保留，重复上述操作，最后得到剩余少数类样本集S_minf；其中，S_min为原始数据少数类样本集，k1为用来测噪声样本的少数类样本邻居样本数；

式(1)中，m＝16，为特征空间的维数，x_i表示样本点x的第i维坐标，y_i表示样本点y的第i维坐标；

步骤4.2、对每个少数类样本x_i∈S_minf，通过将x_i与多数类样本根据公式(1)进行邻居欧氏距离计算，按欧氏距离由小到大取前到k2个邻居样本元素得到多数类邻居样本集记为N_maj(x_i)，将每一个元素得到的多数类邻居样本集做并集得到多数类边界数据集S_bmaj；

其中，k2为用于构造包含大量少数类特征信息的少数类样本集的多数类邻居数；

步骤4.3、对每个多数类样本y_i∈S_bmaj，通过将y_i与S_minf中的每一个样本根据公式(1)进行邻居欧氏距离计算，按欧氏距离由小到大取前到k3个邻居样本元素得到多数类邻居样本集记为N_min(y_i)，将每一个元素得到的少数类邻居样本集做并集得到少数类边界数据集S_imin；

其中，k3为用于构造包含大量少数类特征信息的少数类样本集的少数类邻居数；

步骤4.4、计算所有样本y_i∈S_bmaj，x_i∈S_imin的信息权重I_w(y_i，x_i)、选择权重S_w(x_i)以及选择概率Sp(x_i)如下：

信息权重I_w(y_i，x_i)为贴近度因子C_f(y_i，x_i)与密度因子D_f(y_i，x_i)的乘积：

I_w(y_i,x_i)＝C_f(y_i,x_i)*D_f(y_i,x_i) (4)

式(4)中，贴近度因子C_f(y_i，x_i)计算如下：如果则C_f(y_i，x_i)＝0；否则将按照以下步骤计算C_f(y_i，x_i)：

计算归一化的欧几里得距离值d_n(y_i，x_i)：

d_n(y_i,x_i)＝dist(y_i,x_i)/l (5)

式(5)中l为特征空间的维数，按照下述方式计算C_f(y_i，x_i)：

式(6)中，C_k是平滑系数，C_k＝9；C_max是重新缩放系数，C_max＝2；f为截止函数，其计算如下：

密度因子D_f(y_i，x_i)的计算如下：

根据式(4)计算少数类边界数据集中每个样本的选择权重S_w(x_i)：

少数类边界数据集中每个样本的选择概率S_p(x_i)为该样本的选择权重与所有样本选择权重之和的比值，计算公式如下：

步骤4.5、采用平均链接聚集聚类对S_minf进行聚类分析，得到M个类簇L₁,L₂,...,L_M，具体为：

以S_minf中的数据样本作为输入：

步骤4.5.1、将每个样本分配到一个单独的类簇，每个类簇的大小为1；

步骤4.5.2、根据欧氏距离，找到两个最接近的簇，即L_i和L_j，欧式距离计算如公式(1)；

步骤4.5.3、将类簇L_i和L_j合并为一个类簇L_m；

步骤4.5.4、更新新计算的类簇和所有先前类簇之间的距离度量，根据计算类簇的质心坐标，n为类簇内的样本个数，当i＝1时得到质心的第1维坐标，i＝2时得到质心的第2维坐标，...，i＝m时得到质心的第m维坐标；然后根据公式(1)计算质心与其它类簇的欧氏距离；

步骤4.5.5、重复步骤4.5.2至步骤4.5.4，直到所有数据样本合并到一个大小与S_minf中样本数相等的单个类簇中；

上述步骤4.5.3中在最接近的一对对之间的距离超过阈值T_h时停止合并过程，最后得到M个类簇L₁,L₂,...,L_M，其中T_h的计算过程如下：

对于S_minf的每个成员，找到到同一集合中任何其他成员的最小欧式距离，然后计算所有这些最小距离的平均值以找到d_avg：

通过将d_avg与参数C_p相乘来计算T_h：

T_h＝d_avg*c_p (12)

式(12)中参数C_p用于调整聚类算法的输出，C_p＝3；

步骤4.6、计算合成数据少数类样本集S_omin，具体为：

步骤4.6.1、初始化：S_omin＝S_min；

步骤4.6.2、对每个样本(合成的样本数为N)，执行以下操作：

步骤4.6.3、根据公式(10)选择概率S_p(x_i),从S_imin中选取x_i将其划分到L_k类簇中，1≤k≤M；

步骤4.6.4、随机从L_k中选取样本z；

步骤4.6.5、合成新样本s，s＝x+α×(z-x)，式中系数α是一个随机数，其取值范围为[0,1]；

步骤4.6.6、将样本s加入到集合S_omin，即S_omin＝S_omin∪{s}；

步骤4.7、将合成数据少数类样本集S_omin与原始多数类样本集S_maj合并形成平衡数据集X，X＝S_omin∪S_maj。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安理工大学，未经西安理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010837636.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种橡胶沥青防水涂料及其制备方法
下一篇：一种高致密度的碳化硅陶瓷及其制备方法和应用

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于孤立森林学习的不平衡数据集的预测方法在审

专利文献下载