[发明专利]基于样本推荐标注的动态机器学习建模方法有效
申请号: | 201310103133.7 | 申请日: | 2013-03-27 |
公开(公告)号: | CN103150454A | 公开(公告)日: | 2013-06-12 |
发明(设计)人: | 江铭炎;王伟 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F17/50 | 分类号: | G06F17/50 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 许德山 |
地址: | 250100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于样本推荐标注的动态机器学习建模方法,属于机器学习技术领域。首先,根据CURE算法对样本全集进行聚类,对结果中的每个聚类中心样本和代表样本进行推荐标注,然后建立模型。本发明的有益效果是在处理监督学习问题时,对未知类别的数据集进行推荐标注,这样既有效又省时省力;而且运用机器学习针对错误样本反复训练,从而模型对于新数据集的类别判定会更加准确。 | ||
搜索关键词: | 基于 样本 推荐 标注 动态 机器 学习 建模 方法 | ||
【主权项】:
一种基于样本推荐标注的动态机器学习建模方法,首先进行数据准备阶段:基于CURE的层次性聚类算法对数据全集进行聚类,根据聚类的结果选择每个聚类的中心点和代表点进行推荐性标注,这样标注数据更加有效而且典型;然后,采用某个一定比例拆分训练数据集和测试数据集;其中CURE是一种层次性聚类算法,一个聚类的表示方法是一个中心点和若干个代表点,这样不仅可以更加凸显聚类的形状,还可以有效减小孤立点的影响;然后进行模型构建阶段:对训练数据集中的每条数据进行初始化权重,每条数据的初始化权重均相等;在模型中针对此训练数据集进行初步训练,生成一个分类模型;接着,对于所属类别判定错误的数据进行加权,更新数据的权重;重复训练过程生成分类模型,确定每个模型的适用数据范围;最后,每个模型相互配合组成一个递进关系的模型集合;该方法步骤如下:1)对外界输入数据进行基于CURE的层次聚类过程,生成并保留每个聚类的中心点和代表点;其中,聚类的代表点数目选取8‑12个,设聚类中心点到本聚类所有样本点的距离中的最大值定义为R,聚类的终止条件以R作为判定依据;R的计算方式如下所示:R=Max{d(x,xi),xi∈X}其中,x为聚类X的计算中心样本,xi属于聚类X的一个样本;而基于R的聚类终止条件如下所示: R n + 1 R n ≥ 90 % 其中,Rn代表的是第n次聚类的R的平均值,Rn+1代表的是第n+1次聚类的R的平均值;2)对聚类结果中保留的点,进行推荐人工标注过程;3)对标注样本集合随机抽取其中的2/3作为训练集,剩余1/3作为测试集;4)初始化训练集的样本权重,即每个样本权重均相等为1;w1=w2=…=wn=1其中,w1为第一个样本的权重,w2为第二个样本的权重,wn为第n个样本的权重。5)采用机器学习型算法SVM,对训练集进行初次建模;6)采用测试集对建立的模型进行准确率和召回率的评测,计算公式如下: P = N t N 其中,P指的是准确率,N指的是数据集合总共包含数据条数,Nt指的是模型对数据类别判定正确的条数; C = N s N 其中,C指的是召回率,N指的是数据集合总共包含数据条数,Ns指的是数据集中被正确召回的数据条数;若准确率P和召回率C均达到80%,则继续下步,否则返回5);7)统计类别判错的样本集合,并且按照下面的公式提升这些样本的权重: w i = e n 其中,wi代表的是第i个样本的权重,n是已经判错的次数;重复5)过程再次进行建模,并且根据判错样本计算这个模型的数据适用范围,具体公式如下所示:D=Min{d(x,y),y∈Y}其中,x为测试样本,y为判错样本之一,Y为判错样本集合,D为测试样本与判错样本间的最短距离,若D小于预设阈值,则认为符合数据范围;8)为了防止出现过拟合现象,设定停止条件即设定模型迭代生成次数;若次数没有达到停止条件,则重复7)过程,否则继续进行下面步骤;9)至此,所有模型建立完成,在迭代建立模型的过程中,越靠后建立的模型,其适用的数据范围就越小,根据数据的适用范围大小,组成具有递进关系的模型集合,即数据范围小的模型,优先级较高;10)新数据到来时,依次经过模型集合中的每一个模型,若样本数据在某个模型的适用数据范围内,则此模型给出判定结果并立即停止下面的模型,否则继续到下一个模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310103133.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种SCS钢管混凝柱形结构件
- 下一篇:一种变频器PCBA测试系统及测试方法