[发明专利]一种基于高维空间变换的数据扩增方法、机器识别系统有效

申请号：	201710899032.3	申请日：	2017-09-28
公开（公告）号：	CN107729926B	公开（公告）日：	2021-07-13
发明（设计）人：	赵凤军;吴斌;贺小伟;侯榆青;易黄建;曹欣;王宾	申请（专利权）人：	西北大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/52
代理公司：	西安长和专利代理有限公司 61227	代理人：	黄伟洪;李霞
地址：	710127 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于空间变换数据扩增方法机器识别系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于图像处理、机器学习技术领域，公开了一种基于高维空间变换的数据扩增方法、机器识别系统，将背景样本数据从原始空间变换到高维空间；基于背景样本的分布直方图获得高维空间目标样本分布，生成高维空间目标样本数据；利用距离函数进行方程组变换，扩增数据由高维空间变换到原始空间。本发明通过对负样本的分布直方图学习，扩增了相应的正样本数据集，解决了机器学习模型中的正负样本数据不匹配问题，提高了分类性能，尤其提高了正样本的分类精度；基于背景样本进行统计分析，得到待生成目标样本数据的分布，进而生成目标样本，提高了扩增数据的有效性，避免了传统的基于少量样本合成新的目标样本时产生的样本重叠、模型过拟合问题。

技术领域

本发明属于图像处理、机器学习技术领域，尤其涉及一种基于高维空间变换的数据扩增方法、机器识别系统。

背景技术

机器学习是一门研究机器识别现有知识，获取新知识和新技能的学问，已经广泛应用于各个领域，如图像识别、数据挖掘、故障诊断等。机器学习技术中需要先对样本数据进行处理和训练。在实际应用中，样本数据集往往是不均衡的，通常数据集中负样本数量远多于正样本，对这类数据集进行训练的结果是分类器的分类性能下降；例如在血管斑块识别问题中，血管系统样本中血管斑块往往占比较少，大部分都属于健康血管，用该类样本进行训练，得到的分类器精度较低，可能会将正常血管识别为存在斑块的血管，错误判断病人的病情，也可能会将有斑块的血管识别为正常血管，从而延误患者的病情。因此对这类不均衡数据进行正确的分类，使分类的准确率提高，对于其所属研究领域具有非常重要的意义。目前，针对不平衡数据集的处理主要有两个方面，一是从数据的角度出发，通过对研究样本采样或扩增的方式来达到平衡数据集的目的，二是从算法的角度出发，对算法性能进行改进来提高分类器性能。传统的从数据的角度出发，对不平衡数据集进行处理的方法主要有两种，一种是采样算法，通过对负样本进行采样，使采样的负样本等于原正样本的集合，这种方法会造成未被采样的样本所携带的信息的缺失，对于负样本数据远大于正样本数据的样本，会使研究样本的大部分信息缺失，参与训练的样本数量严重不足；另一种方法是通过数据扩增技术增加正样本的数量，该技术是基于目标样本进行分析，并根据目标样本人工合成新的样本来平衡数据集，例如简单复制正样本、对正样本加噪声、正样本旋转、翻转等方式，但简单的数据扩增技术很容易造成样本重叠和模型过拟合问题，增加模型的训练难度；针对简单数据扩增技术的改进，一些学者提出了新的扩增算法，如SMOTE算法是通过在位置相近的正样本之间进行线性插值人工合成新的样本来平衡数据集，这种方法对每个正样本都生成新样本，改善了模型过拟合问题，但容易造成样本重叠，同时该算法忽略了靠近分类边界的样本以及孤立点对目标样本分类性能的影响，在合成新样本时有一定的盲目性；BSMOTE算法是基于SMOTE算法，使用最近邻算法对目标样本进行分类，得到其噪声样本、内部样本(远离分类边界的样本)、边界样本，使用分类边界的目标样本进行新样本的合成，这种算法忽略了背景样本及孤立点，不适合用于目标样本极少的研究样本。

综上所述，现有技术存在的问题是：基于目标样本的分析来合成新的样本，容易造成样本重叠、忽略边界和孤立点等问题，由于训练样本的局限性，使得分类器分类不准确，对目标样本分类性能的提高上存在一定的局限，如样本重叠可能会造成模型过拟合的问题、忽略边界和孤立点会造成对这类样本点分类错误的问题等。

发明内容

针对现有技术存在的问题，本发明提供了一种基于高维空间变换的数据扩增方法、机器识别系统。

本发明是这样实现的，一种基于高维空间变换的数据扩增方法，所述基于高维空间变换的数据扩增方法将背景样本数据从原始空间变换到高维空间；基于背景样本的分布直方图获得高维空间目标样本分布，生成高维空间目标样本数据；利用距离函数进行方程组变换，扩增数据由高维空间变换到原始空间。

进一步，所述基于高维空间变换的数据扩增方法包括以下步骤：

步骤一，将数据样本分为正样本和负样本，正样本为目标样本，负样本为背景样本；分别计算每个背景样本数据与所有背景样本的欧氏距离平方，得到背景样本的高维空间变换，从而将背景样本数据由原始空间变换到高维空间；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北大学，未经西北大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710899032.3/2.html，转载请声明来源钻瓜专利网。

上一篇：一种用于道路交通安全管理的智能型电子警察
下一篇：一种地磁停车位检测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于高维空间变换的数据扩增方法、机器识别系统有效

专利文献下载