[发明专利]基于样本推荐标注的动态机器学习建模方法有效

专利信息
申请号: 201310103133.7 申请日: 2013-03-27
公开(公告)号: CN103150454A 公开(公告)日: 2013-06-12
发明(设计)人: 江铭炎;王伟 申请(专利权)人: 山东大学
主分类号: G06F17/50 分类号: G06F17/50
代理公司: 济南金迪知识产权代理有限公司 37219 代理人: 许德山
地址: 250100 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 样本 推荐 标注 动态 机器 学习 建模 方法
【说明书】:

技术领域

发明属于机器学习技术领域,特别是一种基于样本推荐标注的动态机器学习建模方法。

背景技术

随着科学技术的不断发展,学者们逐渐开始研究如何使得智能机器(计算机)代替人完成一些复杂的智力劳动,从而解放人类劳动力。机器学习技术作为人工智能的核心内容之一,从生理学和认知学等角度出发,理解人类的学习过程和理解过程,从而模拟建立学习模型或理解模型。并且从这个过程抽象成各种学习方法和理论。总之,机器学习技术旨在通过让智能机器(计算机)模拟人的学习过程获得类似的学习或理解能力,自主学习理解新的知识或模式,并重新组织知识结构和不断完善自身性能。

根据学习过程是否需要先验知识,机器学习可以分为监督学习和无监督学习。监督学习指的是通过模拟标注样本集的数据规律来建立一个较为符合的数学函数或公式,并以此函数或者公式作为判断依据。其中,有训练集的分类问题就是典型的监督学习。无监督学习指的是通过模拟数据集的内部结构来建立一个较为符合其数据分布的模式或者规则,并以此模式或者规则作为判断依据。其中,无指导的聚类问题就是典型的无监督学习。

传统监督学习问题的过程:首先,随机抽取一批样本进行人工标注,即组成了已知标注数据集;然后,对已知标注数据集进行拆分,分为训练集和测试集两部分。接着,运用训练集对学习模型进行构建,运用测试集进行模型的评测;最后,把达到评测要求的模型作为工作模型。

然而对于传统机器学习模型,参考相关文章如“基于用户行为的长查询用户满意度分析”一文,其中存在诸多缺陷,例如:标注样本的选取随机性较大,可能会对后续训练过程产生一定的影响;传统学习模型是根据一批数据一次性训练得到,必然存在时效性的特点;传统学习模型平等地看待每一个样本,没有对已经判错的样本加以重视,改善结果等。《模式识别与人工智能》2012年3期发表的“基于用户行为的长查询用户满意度分析”一文(作者:朱彤,刘奕群,茹立云,马少平)即属于此列。

发明内容

为克服现有模型的缺陷,本发明提供了一种基于样本推荐标注的动态机器学习建模方法。

本发明的技术方案如下:

一种基于样本推荐标注的动态机器学习建模方法,首先进行数据准备阶段:基于CURE的层次性聚类算法对数据全集进行聚类,根据聚类的结果选择每个聚类的中心点和代表点进行推荐性标注,这样标注数据更加有效而且典型;然后,采用某个一定比例拆分训练数据集和测试数据集;其中CURE是一种层次性聚类算法,一个聚类的表示方法是一个中心点和若干个代表点,这样不仅可以更加凸显聚类的形状,还可以有效减小孤立点的影响;

然后进行模型构建阶段:对训练数据集中的每条数据进行初始化权重,每条数据的初始化权重均相等;在模型中针对此训练数据集进行初步训练,生成一个分类模型;接着,对于所属类别判定错误的数据进行加权,更新数据的权重;重复训练过程生成分类模型,确定每个模型的适用数据范围;最后,每个模型相互配合组成一个递进关系的模型集合;

该方法步骤如下:

1)对外界输入数据进行基于CURE的层次聚类过程,生成并保留每个聚类的中心点和代表点;其中,聚类的代表点数目选取8-12个,设聚类中心点到本聚类所有样本点的距离中的最大值定义为R,聚类的终止条件以R作为判定依据;

R的计算方式如下所示:

R=Max{d(x,xi),xi∈X}

其中,x为聚类X的计算中心样本,xi属于聚类X的一个样本;

而基于R的聚类终止条件如下所示:

Rn+1Rn90%]]>

其中,Rn代表的是第n次聚类的R的平均值,Rn+1代表的是第n+1次聚类的R的平均值;

2)对聚类结果中保留的点,进行推荐人工标注过程;

3)对标注样本集合随机抽取其中的2/3作为训练集,剩余1/3作为测试集;

4)初始化训练集的样本权重,即每个样本权重均相等为1;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310103133.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top