[发明专利]一种开集数据的分类方法、装置、设备及存储介质在审
申请号: | 202011309924.1 | 申请日: | 2020-11-20 |
公开(公告)号: | CN112508062A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 张文俊 | 申请(专利权)人: | 普联国际有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 麦小婵;郝传鑫 |
地址: | 中国香港九龙尖沙咀科*** | 国省代码: | 香港;81 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 集数 分类 方法 装置 设备 存储 介质 | ||
本发明公开了一种开集数据的分类方法,包括:获取待训练数据;将所述待训练数据分为开集训练数据以及闭集训练数据,所述闭集训练数据包括已知类别闭集数据,所述开集训练数据包括已知类别开集数据和额外类别开集数据;根据预设的分类器对所述开集训练数据及闭集训练数据进行训练,得到开集数据分类模型;获取待分类数据;根据预设的开集数据分类模型对所述待分类数据进行分类,得到开集数据的分类结果。本发明实施例还提供一种开集数据的分类装置、设备及存储介质,能有效解决现有技术中图像数据分类不准确的问题。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种开集数据的分类方法、装置、设备及存储介质。
背景技术
目前,基于机器学习的认知系统在分类任务方面的能力在逐步赶超人类。然而,这种机器学习的分类能力往往建立在闭集的情况下,即分类的输入都是已认知的类别的情况下。但是,在实际环境中存在很多不确定性,例如,对于一个训练数据为人,宠物,车辆的图像分类器,输入一栋建筑的图像,往往不能得到正确的分类结果。
发明内容
本发明实施例提供一种开集数据的分类方法、装置、设备及存储介质,能有效解决现有技术中图像数据分类不准确的问题。
本发明一实施例提供一种开集数据的分类方法,包括:
获取待训练数据;
将所述待训练数据分为开集训练数据以及闭集训练数据,所述闭集训练数据包括已知类别闭集数据,所述开集训练数据包括已知类别开集数据和额外类别开集数据;
根据预设的分类器对所述开集训练数据及闭集训练数据进行训练,得到开集数据分类模型;
获取待分类数据;
根据所述开集数据分类模型对所述待分类数据进行分类,得到开集数据的分类结果。
作为上述方案的改进,所述根据预设的分类器对所述开集训练数据及闭集训练数据进行训练,得到开集数据分类模型,具体包括:
根据公式L=LOS+λ*LCS计算所述分类器的损失函数,其中,λ为常数,LOS表示开集线路的损失函数,LCS表示闭集线路的损失函数,表示分类正确时取1,否则为0,表示待训练数据为某一类别的概率。
作为上述方案的改进,所述将所述待训练数据分为开集训练数据以及闭集训练数据,具体包括:
对待训练数据进行类别标注;
提取所述待训练数据的特征;
将同一类别的待训练数据的特征进行聚类,得到聚类结果;
根据所述聚类结果选择数据量最多的簇心作为特征簇心;
根据每一类别的待训练数据的特征到对应的特征簇心的距离将所述待训练数据的特征分为开集训练数据以及闭集训练数据。
作为上述方案的改进,所述根据每一类别的待训练数据的特征到对应的特征簇心的距离将所述待训练数据的特征分为开集训练数据以及闭集训练数据,具体包括:
判断每一类别的待训练数据的特征到对应的特征簇心的距离是否大于预设的第一阈值;
若是,则将对应的待训练数据的特征作为闭集训练数据;
若否,则将对应的待训练数据的特征作为开集训练数据。
本发明另一实施例对应提供了一种开集数据的分类装置,包括:
第一获取模块,用于获取待训练数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普联国际有限公司,未经普联国际有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011309924.1/2.html,转载请声明来源钻瓜专利网。