[发明专利]一种基于信度决策树的自训练学习方法在审

申请号：	202010142693.3	申请日：	2020-03-04
公开（公告）号：	CN111368913A	公开（公告）日：	2020-07-03
发明（设计）人：	邹俊韬;燕雪峰;周勇	申请（专利权）人：	南京航空航天大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	葛潇敏
地址：	210016 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于信度决策树训练学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于信度决策树的自训练学习方法，属于数据处理领域；首先对收集到的数据进行预处理，使用证据理论对未标记样本进行表述，提取证据中心然后利用标记样本数据训练信度决策树，并对未标记样本数据进行预测；使用结合Jousselme距离与概率的判别方式，挑选置信度较高的未标记样本加入标记样本训练集，让训练出的初始分类器有较高的准确性，提高自训练方法的泛化性。本发明使得自训练方法能够良好的适应决策树模型，且能够有效的提高对于数据分类的准确度与鲁棒性。

技术领域

本发明公开了一种基于信度决策树的自训练学习方法，主要用于解决对无标签样本数据的分类问题，本发明涉及数据挖掘领域。

背景技术

半监督学习是解决对部分未标记的数据训练问题的方法，在数据挖掘领域一直有着良好的应用。虽然通过半监督学习将有标记和未标记的样本相结合来对基础模型训练在某些模型和方法上取得了显著成效，但是一些学者认为，使用未标记样本来训练学习器可能会由于将错误预测的数据添加到训练集中，从而导致学习器性能的退化。但是当所假设的模型为正确的时候，或者其对于无标签样本类别的预测准确率大于错误预测率时，学习器能够从无标签的样本中学习到知识，从而提高性能。

在半监督学习中，决策树由于其无法对预测产生可靠的概率估计，使其作为基础学习器不能有效地应用于自训练算法中。对于决策树而言，由于其本身的特性，倘若直接将其作为自训练的基础模型会导致最终训练表现结果并不理想。其主要原因在于两点：1、由于决策树节点中数据采用划分方式将父节点中的数据划分到子节点中，所以决策树叶子节点的样本数目往往较少，所分得具有标记的数据数量有限，导致难以进行筛选；2、决策树同一个叶子节点之中的数据对象具有相同的概率估计，这将导致同一个叶节点之中的数据对象拥有一样的筛选条件，不能有效的将相同叶节点之中的数据在自训练的选择步骤中区别开来。

将半监督学习应用在决策树的扩展之中将主要挑战如下：在使用决策树为基础分类器的自训练学习中，根据叶节点中样本预测的概率估计选择出的样本不会使分类器在迭代过程中受益，因此该算法不会从未标记的样本的学习中提升分类效果。造成这种问题的原因是决策树分类器不能仅通过从叶节点中样本类别的分布中得到预测数据的置信度排名。

发明内容

发明目的：本发明主要用于解决对使用无标签的数据集训练信度决策树用以解决数据分类问题。

技术方案：本发明提供一种基于信度决策树的自训练学习方法，本发明的解决方案主要包括以下内容：

步骤一：输入标记和未标记的数据；

步骤二：对数据进行预处理，使用证据理论框架来对未标记数据进行表述；

步骤三：使用标记样本数据训练信度决策树模型，对未标记样本进行标记预测；

步骤四：计算未标记样本预测置信度，将置信度较高的未标记样本与其预测标签从未标记样本集中删除，并加入标记样本训练集中；

步骤五：若达到训练停止条件则停止训练，否则返回步骤三，所述训练停止条件包括如下两个条件，满足其中一个条件即停止训练；

条件一：未标记数据集之中数据对象数量为零；

条件二：决策树达到预设的最大深度。

进一步的，所述步骤二中对于数据进行预处理，分为以下步骤：

步骤2.1：假定数据中的若干个中心点，计算出数据集中每个子集与构成子集类的数据重心；