[发明专利]一种基于模型自适应选择的多分类模型融合方法在审

申请号：	201810876135.2	申请日：	2018-08-03
公开（公告）号：	CN109086825A	公开（公告）日：	2018-12-25
发明（设计）人：	高欣;刁新平;何杨;井潇	申请（专利权）人：	北京邮电大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基分类模型样本融合自适应选择分类模型多分类模型分类准确率分类标签分类结果准确率输出形式数据样本样本设置有效融合结合基数据集概率标签输出
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于模型自适应选择的多分类模型融合方法，其特征在于，所述方法步骤包括：

(1)分别计算基分类模型对每一类样本的分类准确率，对结果输出为概率值的分类模型，取其分类结果的Top-N分类标签集；

(2)根据各基分类模型对每类样本的分类准确率最大值，设置各类样本的动态准确率阈值，并对各数据集样本设置分类结果融合标记；

(3)根据样本的融合标记，对每一个样本自适应选择参与融合的基分类模型，结合基分类模型的Top-N分类标签集，实现基分类模型融合。

2.根据权利要求1所述的方法，其特征在于，分别计算基分类模型对每一类样本的分类准确率，对于结果输出为概率值的分类模型，取其分类结果的Top-N分类标签集，具体说明如下：基分类模型个数为2，样本类别数为M，训练集样本数量为n，x为样本特征向量集，x＝[x₁ x₂ … x_n]，x_i表示第i个样本的特征向量，i＝1,2,…,n，第k个基分类模型学习到的模型为f_k(x)；若分类模型k的输出结果为样本属于各类别的后验概率，则f_k(x_i)表示模型对第i个样本分类结果中概率的最大值对应的样本类别标签，即其Top-1分类标签；若分类模型k的输出为样本的预测类标签，则f_k(x_i)表示分类模型k对第i个样本的分类标签；a_k,j表示第k个基分类模型的输出结果中，分类标签为第j类的样本预测准确率；用于计算基分类模型对于每一类样本的分类准确率的表达式为

其中，I为指示函数，I(j＝f_k(x_i),y_i＝f_k(x_i))表示当j＝f_k(x_i)且y_i＝f_k(x_i)成立时值为1，否则为0，用于判断样本是否被正确分类。

3.根据权利要求1所述的方法，其特征在于，根据基分类模型对每一个样本类的分类准确率，分别设置各类样本的动态准确率阈值，并对各数据集样本设置分类结果融合标记，具体说明如下：根据基分类模型分类结果对各类别的准确率，计算各类样本准确率阈值σ_j：

σ_j＝λ·max(a_1,j,a_2,j),j＝1,2,…,M

其中，σ_j表示第j类样本的准确率阈值，λ为阈值系数，且满足λ∈[0,1]；

对分类模型预测结果中的各类别样本分别设置融合标记δ_j：

其中，δ_j表示第j类样本的融合标记；δ_j＝1表示分类标签为第j类的样本，分类模型1的准确率明显高于分类模型2，其模型融合后的分类结果取分类模型1的分类结果；δ_j＝2表示预测为第j类的样本模型融合后输出结果取分类模型2的分类结果；δ_j＝0表示对于预测结果标签为第j类的样本，基分类模型之间的分类准确率没有明显差别，需要将基分类模型的结果进一步判断以确定最终模型融合后的输出；

结合基分类模型的分类结果及其结果中各类样本的融合标记，进而可得数据集各个样本的融合标记ε_i：

ε_i＝δ_j

s.t.f₁(x_i)＝j

其中，ε_i表示第i个样本的融合标记，δ_j表示第j类样本的融合标记，f₁(x_i)为基分类模型1对第i个样本的分类结果，且有i＝1,2,…,n，j＝1,2,…,M；

即得数据集各样本的模型融合标记Θ：

Θ＝[ε₁ ε₂ … ε_i … ε_n]。

4.根据权利要求1所述的方法，其特征在于，根据各基分类模型对每类样本的分类准确率最大值，设置各类样本的动态准确率阈值，并对各数据集样本设置分类结果融合标记，具体说明为：假定分类模型1的输出结果为将样本分为各样本类的概率，由分类模型1输出的样本分别属于各类的概率大小，得分类模型1对该样本的分类结果中后验概率较大的前N个分类标签集合Top-N；假定表示第k个分类模型输出的第i个样本的Top-N集合中，按后验概率由大到小的第j个分类标签，则有：

其中，n为数据集样本数量；

假定分类模型2学习到的模型为f₂(x)，其学习结果中对各样本的分类标签为f₂(x_i)；得分类模型2对数据集的分类结果F₂(x)为：

F₂(x)＝[f₂(x₁) f₂(x₂) … f₂(x_i) … f₂(x_n)]

假定分类模型融合后，样本的分类结果输出为p(x_i)，由样本的融合标记可得：

其中，f₁(x_i)＝f₁¹(x_i)，表示分类模型1结果中特征样本x_i所属类别后验概率最大值所对应的类别标签；p_f(x_i)表示融合标记ε_i＝0的样本融合后的输出标签：

s.t.ε_i＝0,i＝1,2,…,n

其中，Top-N_i表示特征样本x_i对应的Top-N集合中的分类标签集：

Top-N_i＝[f₁¹(x_i) f₁²(x_i) … f₁^j(x_i) … f₁^N(x_i)]