[发明专利]数据处理装置、数据处理方法和计算机可读存储介质在审
申请号: | 202011636891.1 | 申请日: | 2020-12-31 |
公开(公告)号: | CN114764934A | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 郭松;刘汝杰;王梦蛟 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/774;G06V10/80;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王萍;王鹏 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 装置 方法 计算机 可读 存储 介质 | ||
本公开内容涉及数据处理装置和数据处理方法。该数据处理装置包括:融合单元,被配置成使用第一样本数据集训练第一分类模型,并且基于第一分类模型对第二样本数据集进行分类的分类结果将第二样本数据集融合到第一样本数据集中以形成第三样本数据集;以及滤除单元和调整单元中的至少之一,其中滤除单元被配置成对第三样本数据集中的属于同一类别的样本数据进行相互比较以滤除相同或相近的样本数据,调整单元被配置成使用第三样本数据集训练第二分类模型,并且基于第二分类模型对第三样本数据集的分类结果对第三样本数据集中的样本数据进行调整。根据该数据处理技术,能够将至少两个样本数据集融合为一个更大的、更干净的和更多样化的样本数据集。
技术领域
本公开内容涉及数据处理的技术领域。特别地,本公开内容的实施方式涉及用于将两个或更多个样本数据集融合为一个样本数据集的数据处理装置和数据处理方法。
背景技术
目前,人脸识别技术已被广泛应用于交通、金融、司法、安全、政府、教育、医疗等众多领域。用于对人脸识别模型进行训练的人脸图像数据集对于人脸识别模型的性能起到至关重要的作用。具体地,好的人脸图像数据集,特别是规模越大,越干净,包含的信息越丰富的人脸图像数据集,越能够有效地提高人脸识别模型的性能。例如,在本领域中目前被广泛使用的人脸图像数据集,如MS-Celeb-1M、VGGFace2、MegaFace2等,均包含关于数万至数十万人的数百万张人脸图像。
然而,这些人脸图像数据集存在至少三个缺陷。第一,这些人脸图像数据集的规模仍不够大,不足以训练高性能的人脸识别模型。第二,由于这些人脸图像数据集大部分收集自网络,因此存在较多的噪声。第三,这些人脸图像数据集的数据分布不够多样化,例如MS-Celeb-1M仅是关于约十万个名人的数百万张人脸图片。
在现有技术中,为了获得更大的人脸图像数据集,通常使用两种方法。一种方法是利用例如搜索引擎构造公众人物的人脸图像数据集。然而,这种方法所获得的人脸图像数据集中的噪声较大,而且去除噪声的工作所花费的人力和财力成本都较高。另一种方法是将若干个人脸图像数据集融合在一起使用。然而,简单地将不同的人脸图像数据集合并在一起会导致更严重的噪声问题。例如,这些人脸图像数据集中可能存在彼此重叠的人脸图像数据。进而,通过简单合并得到的人脸图像数据集会对人脸识别模型的性能产生不利地影响。
因此,需要一种能够将多个人脸图像数据集融合成一个人脸图像数据集的技术以克服现有技术中存在的以上问题。
发明内容
在下文中将给出关于本公开内容的简要概述,以便提供关于本公开内容的某些方面的基本理解。应当理解,这个概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分,也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
对于上文指出的现有技术中存在的问题,本公开内容的目的在于提供一种数据处理技术,其能够将两个或更多个样本数据集融合为一个更大的、更干净的和更多样化的样本数据集,从而提高使用所述样本数据集训练的分类模型的性能。
为了实现本公开内容的目的,根据本公开内容的一个方面,提供了一种数据处理装置,包括:融合单元,被配置成使用第一样本数据集训练第一分类模型,并且基于第一分类模型对第二样本数据集进行分类的分类结果将第二样本数据集融合到第一样本数据集中以形成第三样本数据集;以及滤除单元和调整单元中的至少之一,其中,滤除单元被配置成对第三样本数据集中的属于同一类别的样本数据进行相互比较以滤除相同或相近的样本数据,以及其中,调整单元被配置成使用第三样本数据集训练第二分类模型,并且基于第二分类模型对第三样本数据集的分类结果对第三样本数据集中的样本数据进行调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011636891.1/2.html,转载请声明来源钻瓜专利网。