[发明专利]一种基于密度和在线半监督学习烟草分类方法有效

申请号：	201810119422.9	申请日：	2018-02-06
公开（公告）号：	CN108376261B	公开（公告）日：	2022-03-15
发明（设计）人：	夏旻;王杰	申请（专利权）人：	南京信息工程大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06V10/764
代理公司：	南京汇盛专利商标事务所(普通合伙) 32238	代理人：	张立荣
地址：	210044 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于密度在线监督学习烟草分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于密度和在线半监督学习烟草分类方法，首先利用少量有标签的烟草样本进行初始训练，然后利用一批数量上大于有标签样本数的无标签样本，基于密度和距离筛选有用样本，进行在线学习，因此不断筛选更新，并获得最终的学习模型，最后的模型就可以应用于烟草的分类。本发明相比一般的半监督学习，通过密度和距离的算法增加了一个机选样本的过程，提高了模型的训练效率，运用在线学习提高模型的训练速度和适用性。

技术领域

本发明属于机器学习领域，是一种基于密度和在线半监督学习，用于烟叶级别的自动分类。

背景技术

烟叶是卷烟的基础材料，烟叶的质量等级直接决定卷烟的品质。而对烟叶进行科学的自动分级一直是烟草研究领域的重点问题之一。国内对烟叶的分级主要还是人工操作，要求繁多，例如挑选人员要求、挑选工艺要求、挑后烟叶标识、存放要求等，其中既有客观要求，又有主观因素。研制出一套完善可用的烟叶等级的自动识别系统将能有效解决这一问题。而鉴别一个烟叶的特征有许多，如图1，例如脉相(主脉、支脉、叶柄)，叶形(叶尖、形状)，身份(密度、厚度)，叶片(叶面、叶片结构、质地)、叶色(浓度、一致性、色域)。

传统的监督学习用大量的有标签样本进行学习训练模型，然后用训练好的模型对无标记样本预测，若任务是分类，那么预测的是类别；如果是回归，预测的就是实数输出。随着数据收集和存储能力的提升，数据采集变得越来越容易，但是这些数据中，仅有极少部分是有标签的样本，其余都是无标签的。若只使用无标记样本，则浪费了有标记样本的有用信息；反之，只使用极少量的有标记样本训练模型，得到的模型很难具有较好的泛化性。获取已标记样本成本昂贵，这致使半监督学习成为近十几年来学者们研究的一个重要话题。

发明内容

本发明为了解决现有技术中存在的问题，提供一种可降低人工操作的主观因素，提高烟叶分级的准确度和效率的基于密度和在线半监督学习算法，实现烟叶的自动分级。

为了达到上述目的，本发明提出的技术方案为：一种基于密度和在线半监督学习烟草分类方法，包括如下步骤：

步骤1、对于一个标准的烟叶数据库U，将其中有标签数据样本记作x，无标签数据样本记作X；并对数据进行预处理；

步骤2、设置网络模型，设有N个有标签数据样本，(x_j,t_j)表示第j个数据样本的属性和标签，n、L、m分别是网络的输入层节点数、隐层节点数和输出层节点个数，输入层与隐层之间的权重和偏置都随机给定，其中

T是矩阵转置符号，R表示实数矩阵；

那么网络模型为

其中，G(x)是激活函数，是输入层节点与第i个隐层节点之间的输入权重，b_i是第i个隐层节点的偏置，是第i个隐层节点与输出层之间的输出权重，o_j是网络的输出值；

上述网络模型的损失函数可表示如下

目标函数为：

上式用矩阵表示为

H·β＝T