[发明专利]一种基于类别均衡的代表样本发现方法在审

专利信息
申请号: 201711316558.0 申请日: 2017-12-12
公开(公告)号: CN108062563A 公开(公告)日: 2018-05-22
发明(设计)人: 袁玉波;顾依依;谈询滔;阮彤 申请(专利权)人: 华东理工大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 200237 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 类别 均衡 代表 样本 发现 方法
【说明书】:

本方法公开了一种基于类别均衡的代表样本发现方法。在确保智能分类系统分类准确率的条件下,以提升机器学习的效率为目标。本方法核心技术包括:第一、候选样本集合预处理及分割方法,将用户给出的数据库进行预处理,包括缺失值、异常值的处理和数据集合预切割;第二、代表样本数量分配,给出类别均衡的定义并分配代表样本个数;第三、多标准选择代表,按照最大、最小和平均三种标准进行选举代表样本工作。此方法在保持分类准确率基本不变的情况下,有效地减少智能分类系统建模时间和内存空间。为了验证方法有效性,选择了5类智能分类算法在25个UCI数据库上展开试验,结果说明本方法选择得到了有意义的代表样本。

技术领域

发明主要涉及人工智能技术,具体涉及一种基于类别均衡的代表样本发现方法。

背景技术

随着经济的迅速发展,科技的不断进步,现实世界中各个方面的数据量呈爆炸式增长,迎来了当今的大数据时代。在此背景下,有关数据驱动的各种智能系统的设计和研究成为当今的热点,尤其是人工智能以及其核心技术机器学习,备受瞩目。传统的数据处理技术已经无法应用在大规模数据之上,因此要对处理技术做出改进,以适应时代的变化。但当移动终端时代的来临,对数据的规模有了十分严格的要求,要尽量的少,包含的信息要足够全,以保证智能系统的速度足够快。因此,为了提升智能系统的性能,就要提升训练样本的质量,应用于智能系统的样本应该少而精。在此问题的驱动下,本文的研究目标是提出有效地发现高质量的代表样本的方法。

本方法是基于类别均衡的一种样本发现方法。首先,给出类别均衡的定义公式,

其中,N是用户给定的总代表数,N0是总样本数,k是数据集包含的类别个数,xi是第i类样本数,li是第i类代表数。上式表述了总代表以及总样本的构成。

上式为本方法中类别均衡的定义公式,它表述了每个类别的样本数与代表数的比值应近似相等,并且近似等于总样本数与总代表数的比值。通过此类别均衡的公式,确定的每个类别应选的代表样本的个数,最终选到的总代表样本,包含了原始数据集中的每个类别,并且保持了原始数据集中类别比例的结构,可以更好地代表原始数据集。

代表样本的发现方法是基于日常选举代表人员的思想来设计实现的。在现实生活中,我们要选出若干个代表去参加一个会议,可以根据参选人员的收入选择收入较高的、中等的、较低的去参加会议;也可以选择年龄中较大、适中的、较小的去参加会议。其中,收入和年龄就相当于数据集中的属性,而较高、中等、较低则为在属性中选择样本的标准。因此,本文的代表样本发现方法,则是在某些属性中按照最大、最小、平均这三个标准进行样本的选择工作。

在样本的与预处理过程中,对异常值的处理通常是直接将含有异常值的记录剔除,但在去除含异常值的记录前,首先需要明确哪些是异常值。一般可以选择箱型图对数据集进行异常值的分析,其好处是不需要数据服从某种特定的分布,它是根据实际的数据来绘制箱型图的。箱型图主要包含上边缘、上四分位数Q1、中位数、下四分位数Q2、下边缘、异常值,这六个结点,其中异常值被定义为大于Q1+1.5IQR或小于Q2-1.5IQR,IQR为四分位距。由此可知,箱型图判断异常值以四分位数和四分位距为标准。因为四分位数不会受到异常值的干扰,所以四分位数具有一定的耐抗性,使得用箱型图来识别异常值会比较客观。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东理工大学,未经华东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711316558.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top