[发明专利]一种数据处理方法及装置有效
申请号: | 201810859161.4 | 申请日: | 2018-07-31 |
公开(公告)号: | CN109165679B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 许明微;李琳;吴耀华 | 申请(专利权)人: | 咪咕文化科技有限公司;中国移动通信集团有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张荣;张颖玲 |
地址: | 100032 北京市西城区德*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
本发明公开了一种数据处理方法,所述方法包括:根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大;利用所述最优对齐矩阵将所述源域样本的子空间和目标域样本的子空间对齐,得到源域数据集和目标域数据集;根据所述源域数据集和所述目标域数据集对最近邻分类器进行训练,得到训练后的分类器;利用训练后的分类器对所述目标域样本中不带标签的样本进行分类识别。本发明还同时公开了一种数据处理装置。
技术领域
本发明涉及数据处理技术,具体涉及一种数据处理方法及装置。
背景技术
现有技术中通常将训练数据来自的领域称之为源域,将测试数据来自的领域称之为目标域。在利用现有技术中的邻域保持和核子空间对齐(NPKSA)方法在提高图像识别效率时,是利用核映射函数将源域和目标域图像都映射到同一个高维空间中,使得在这个高维空间中源域和目标域图像线性可分。然后,对高维空间中的源域图像和目标域图像使用主成分分析法(PCA,Principal Component Analysis)降维,得到源域子空间和目标域子空间。接着,学习一个对齐矩阵将源域子空间和目标域子空间对齐,保证在原始空间中属于不同类别的源域样本在对齐后的空间中尽可能的分开。最后,利用学习得到的对齐矩阵对新的图像进行分类。
然而,由于现有技术利用的是原始空间中不同类别的源域样本的信息,让原始空间中不同类别的样本在对齐后的空间中尽可能的分散,如此,可能导致原始空间中同类别的样本在对齐后的空间中也很分散(如图1所示),从而不利于分类器的训练,影响分类器在对图像进行分类识别时的准确性。
图1为现有技术中基于邻域保持和核子空间对齐(NPKSA)方法的训练效果示意图;
如图1所示,源域子空间101中属于同类别的源域样本,在使用NPKSA方法中的对齐矩阵进行空间对齐后,在对齐后的空间102中也很分散,从而导致在进行图像分类时的准确度较低。
发明内容
为解决现有存在的技术问题,本发明实施例期望提供一种数据处理方法,能够提高图像识别的准确性。
本发明实施例的技术方案是这样实现的:
根据本发明实施例的一方面,提供一种数据处理方法,所述方法包括:
根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大;
利用所述最优对齐矩阵将所述源域样本的子空间和目标域样本的子空间对齐,得到源域数据集和目标域数据集;
根据所述源域数据集和所述目标域数据集对最近邻分类器进行训练,得到训练后的分类器;
利用训练后的分类器对所述目标域样本中不带标签的样本进行分类识别。
上述方案中,所述方法还包括:
根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于不同类别的第二源域样本,在对齐后的空间中的聚集程度最小。
上述方案中,根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于相同类别的第一源域样本,在对齐后的空间中的聚集程度最大,包括:
计算最优对齐矩阵,使得所述源域样本中第i类样本的均值和所述源域样本中所有样本的均值之间的差异最小。
上述方案中,根据源域样本在对齐后的空间中的聚集程度确定最优对齐矩阵,使得所述源域样本中属于不同类别的第二源域样本,在对齐后的空间中的聚集程度最小,包括:
计算最优对齐矩阵,使得所述源域样本中第i类样本的均值和所述源域样本中所有样本的均值之间的差异最大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于咪咕文化科技有限公司;中国移动通信集团有限公司,未经咪咕文化科技有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810859161.4/2.html,转载请声明来源钻瓜专利网。