[发明专利]一种基于凸边界的学习样本抽取方法在审
申请号: | 201711314980.2 | 申请日: | 2017-12-12 |
公开(公告)号: | CN108052592A | 公开(公告)日: | 2018-05-18 |
发明(设计)人: | 袁玉波;顾依依;谈询滔;阮彤 | 申请(专利权)人: | 华东理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62;G06N99/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200237 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 凸边 学习 样本 抽取 方法 | ||
本方法公开了一种基于凸边界的学习样本抽取方法。目标是提升智能分类系统的效率,减少机器学习训练样本的数量。本方法核心技术包括:第一、对用户给出的数据库的预切割技术,包括缺失值和异常值处理,以及数据集合的预切割工作;第二、类别集合的中心化,引入样本凸集合的概念,给出类别样本索引;第三、凸边界样本抽取,每个象限内,根据边界宽度抽取边界样本。此方法可以提升智能分类系统的机器学习性能。通过5类常用的数据分类算法在20个UCI数据库上的试验结果表明,通过边界样本的抽取方法得到的边界样本是有效的,在系统的准确率变化范围内,学习样本数量大幅减少,效率显著提升。
技术领域
本发明主要涉及人工智能技术,具体涉及一种基于凸边界的学习样本抽取方法。
背景技术
随着大数据时代的来临,给数据驱动的各种智能系统的研究和设计带来了深刻的变化。尤其是人工智能的核心技术——机器学习,成为了研究的热点。而学习样本的质量,即学习样本中的缺失值、异常值、冗余样本、样本数量,都将严重影响到机器学习的性能,如何选择高质量的学习样本集合,成为一个关键的研究课题。在此问题的驱动下,本文的研究目标是提出有效地从原始数据库中抽取学习样本的新方法。
学习样本的抽取技术是指对用于机器学习的学习样本进行主动选择的过程,是机器学习中一项必不可少的技术。学习样本的主动选择是选择有意义的样本,而采样,如常用的随机采样是选择代表性的样本,这二者之间是存在区别的。例如,在0-99之间有50个数据,这50个数据分布在0-49之间有1个数据0,50-99之间有49个数据。对于随机采样,数据0和其余49个数据被选择到的概率是相等,保证了样本的代表性;而对于样本抽取来说,是要选择有意义的样本,即如果数据0的存在对于原始数据集是有意义的,就要在抽取样本的过程中选择它,如果对于原始数据集是无意义、甚至对于原始数据集来说是一个噪声数据,那么在抽取样本的过程中就不会选择它。也就是,样本抽取要通过某种规则从原始数据库中选择一个具有意义的、样本数量较少但是包含信息尽可能多的子集作为机器学习的学习样本。使得在机器学习建模时的运行速度快、内存开销少,提升机器学习的效率。并且得到的模型的性能不仅比随机选择要好,而且要和使用原始训练集得到的性能差不多,甚至更好。这也是本方法的研究意义。
本方法对于原始数据库中异常值的处理选择直接删除包含异常值的样本,在此之前需要对异常值样本进行识别。一般对于异常值的处理方法有如下几种:3σ探测方法、散点图、四分位数展布法。本方法对异常值的识别选用基于四分位数思想的箱型图对异常值进行检测。它的优势在于不需要数据服从某种特定的分布,它是根据实际的数据来绘制箱型图的。在箱型图中,异常值定义为大于Q1+1.5IQR或小于Q2-1.5IQR的值,其中IQR为四分位距。据此定义可知,箱型图判断异常值以四分位数和四分位距为标准,而四分位数具有一定的耐抗性,不会被异常值扰动,从而使用箱型图来识别异常值比较客观。
在凸几何中,凸集是在凸组合下闭合的仿射空间的子集。更具体地说,在欧氏空间中,凸集是对于集合内的每一对点,连接该对点的直线段上的每个点也在该集合内。例如,立方体是凸集,但是任何中空的或具有凹痕的例如月牙形都不是凸集。将凸集合的概念应用到样本抽取中,有如下定义:
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东理工大学,未经华东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711314980.2/2.html,转载请声明来源钻瓜专利网。