[发明专利]基于样本推荐标注的动态机器学习建模方法有效

专利信息
申请号: 201310103133.7 申请日: 2013-03-27
公开(公告)号: CN103150454A 公开(公告)日: 2013-06-12
发明(设计)人: 江铭炎;王伟 申请(专利权)人: 山东大学
主分类号: G06F17/50 分类号: G06F17/50
代理公司: 济南金迪知识产权代理有限公司 37219 代理人: 许德山
地址: 250100 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 基于样本推荐标注的动态机器学习建模方法,属于机器学习技术领域。首先,根据CURE算法对样本全集进行聚类,对结果中的每个聚类中心样本和代表样本进行推荐标注,然后建立模型。本发明的有益效果是在处理监督学习问题时,对未知类别的数据集进行推荐标注,这样既有效又省时省力;而且运用机器学习针对错误样本反复训练,从而模型对于新数据集的类别判定会更加准确。
搜索关键词: 基于 样本 推荐 标注 动态 机器 学习 建模 方法
【主权项】:
一种基于样本推荐标注的动态机器学习建模方法,首先进行数据准备阶段:基于CURE的层次性聚类算法对数据全集进行聚类,根据聚类的结果选择每个聚类的中心点和代表点进行推荐性标注,这样标注数据更加有效而且典型;然后,采用某个一定比例拆分训练数据集和测试数据集;其中CURE是一种层次性聚类算法,一个聚类的表示方法是一个中心点和若干个代表点,这样不仅可以更加凸显聚类的形状,还可以有效减小孤立点的影响;然后进行模型构建阶段:对训练数据集中的每条数据进行初始化权重,每条数据的初始化权重均相等;在模型中针对此训练数据集进行初步训练,生成一个分类模型;接着,对于所属类别判定错误的数据进行加权,更新数据的权重;重复训练过程生成分类模型,确定每个模型的适用数据范围;最后,每个模型相互配合组成一个递进关系的模型集合;该方法步骤如下:1)对外界输入数据进行基于CURE的层次聚类过程,生成并保留每个聚类的中心点和代表点;其中,聚类的代表点数目选取8‑12个,设聚类中心点到本聚类所有样本点的距离中的最大值定义为R,聚类的终止条件以R作为判定依据;R的计算方式如下所示:R=Max{d(x,xi),xi∈X}其中,x为聚类X的计算中心样本,xi属于聚类X的一个样本;而基于R的聚类终止条件如下所示: R n + 1 R n 90 % 其中,Rn代表的是第n次聚类的R的平均值,Rn+1代表的是第n+1次聚类的R的平均值;2)对聚类结果中保留的点,进行推荐人工标注过程;3)对标注样本集合随机抽取其中的2/3作为训练集,剩余1/3作为测试集;4)初始化训练集的样本权重,即每个样本权重均相等为1;w1=w2=…=wn=1其中,w1为第一个样本的权重,w2为第二个样本的权重,wn为第n个样本的权重。5)采用机器学习型算法SVM,对训练集进行初次建模;6)采用测试集对建立的模型进行准确率和召回率的评测,计算公式如下: P = N t N 其中,P指的是准确率,N指的是数据集合总共包含数据条数,Nt指的是模型对数据类别判定正确的条数; C = N s N 其中,C指的是召回率,N指的是数据集合总共包含数据条数,Ns指的是数据集中被正确召回的数据条数;若准确率P和召回率C均达到80%,则继续下步,否则返回5);7)统计类别判错的样本集合,并且按照下面的公式提升这些样本的权重: w i = e n 其中,wi代表的是第i个样本的权重,n是已经判错的次数;重复5)过程再次进行建模,并且根据判错样本计算这个模型的数据适用范围,具体公式如下所示:D=Min{d(x,y),y∈Y}其中,x为测试样本,y为判错样本之一,Y为判错样本集合,D为测试样本与判错样本间的最短距离,若D小于预设阈值,则认为符合数据范围;8)为了防止出现过拟合现象,设定停止条件即设定模型迭代生成次数;若次数没有达到停止条件,则重复7)过程,否则继续进行下面步骤;9)至此,所有模型建立完成,在迭代建立模型的过程中,越靠后建立的模型,其适用的数据范围就越小,根据数据的适用范围大小,组成具有递进关系的模型集合,即数据范围小的模型,优先级较高;10)新数据到来时,依次经过模型集合中的每一个模型,若样本数据在某个模型的适用数据范围内,则此模型给出判定结果并立即停止下面的模型,否则继续到下一个模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310103133.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top