[发明专利]一种基于类别均衡的代表样本发现方法在审
申请号: | 201711316558.0 | 申请日: | 2017-12-12 |
公开(公告)号: | CN108062563A | 公开(公告)日: | 2018-05-22 |
发明(设计)人: | 袁玉波;顾依依;谈询滔;阮彤 | 申请(专利权)人: | 华东理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200237 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 类别 均衡 代表 样本 发现 方法 | ||
本方法公开了一种基于类别均衡的代表样本发现方法。在确保智能分类系统分类准确率的条件下,以提升机器学习的效率为目标。本方法核心技术包括:第一、候选样本集合预处理及分割方法,将用户给出的数据库进行预处理,包括缺失值、异常值的处理和数据集合预切割;第二、代表样本数量分配,给出类别均衡的定义并分配代表样本个数;第三、多标准选择代表,按照最大、最小和平均三种标准进行选举代表样本工作。此方法在保持分类准确率基本不变的情况下,有效地减少智能分类系统建模时间和内存空间。为了验证方法有效性,选择了5类智能分类算法在25个UCI数据库上展开试验,结果说明本方法选择得到了有意义的代表样本。
技术领域
本发明主要涉及人工智能技术,具体涉及一种基于类别均衡的代表样本发现方法。
背景技术
随着经济的迅速发展,科技的不断进步,现实世界中各个方面的数据量呈爆炸式增长,迎来了当今的大数据时代。在此背景下,有关数据驱动的各种智能系统的设计和研究成为当今的热点,尤其是人工智能以及其核心技术机器学习,备受瞩目。传统的数据处理技术已经无法应用在大规模数据之上,因此要对处理技术做出改进,以适应时代的变化。但当移动终端时代的来临,对数据的规模有了十分严格的要求,要尽量的少,包含的信息要足够全,以保证智能系统的速度足够快。因此,为了提升智能系统的性能,就要提升训练样本的质量,应用于智能系统的样本应该少而精。在此问题的驱动下,本文的研究目标是提出有效地发现高质量的代表样本的方法。
本方法是基于类别均衡的一种样本发现方法。首先,给出类别均衡的定义公式,
其中,N是用户给定的总代表数,N
上式为本方法中类别均衡的定义公式,它表述了每个类别的样本数与代表数的比值应近似相等,并且近似等于总样本数与总代表数的比值。通过此类别均衡的公式,确定的每个类别应选的代表样本的个数,最终选到的总代表样本,包含了原始数据集中的每个类别,并且保持了原始数据集中类别比例的结构,可以更好地代表原始数据集。
代表样本的发现方法是基于日常选举代表人员的思想来设计实现的。在现实生活中,我们要选出若干个代表去参加一个会议,可以根据参选人员的收入选择收入较高的、中等的、较低的去参加会议;也可以选择年龄中较大、适中的、较小的去参加会议。其中,收入和年龄就相当于数据集中的属性,而较高、中等、较低则为在属性中选择样本的标准。因此,本文的代表样本发现方法,则是在某些属性中按照最大、最小、平均这三个标准进行样本的选择工作。
在样本的与预处理过程中,对异常值的处理通常是直接将含有异常值的记录剔除,但在去除含异常值的记录前,首先需要明确哪些是异常值。一般可以选择箱型图对数据集进行异常值的分析,其好处是不需要数据服从某种特定的分布,它是根据实际的数据来绘制箱型图的。箱型图主要包含上边缘、上四分位数Q1、中位数、下四分位数Q2、下边缘、异常值,这六个结点,其中异常值被定义为大于Q1+1.5IQR或小于Q2-1.5IQR,IQR为四分位距。由此可知,箱型图判断异常值以四分位数和四分位距为标准。因为四分位数不会受到异常值的干扰,所以四分位数具有一定的耐抗性,使得用箱型图来识别异常值会比较客观。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东理工大学,未经华东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711316558.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种显示方法、装置及移动终端
- 下一篇:水槽式清洗机的透气机构