[发明专利]一种应用于异分布数据环境的主动学习方法在审

专利信息
申请号: 201710512292.0 申请日: 2017-06-29
公开(公告)号: CN107247996A 公开(公告)日: 2017-10-13
发明(设计)人: 吴伟宁 申请(专利权)人: 哈尔滨工程大学
主分类号: G06N99/00 分类号: G06N99/00;G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 150001 黑龙江省哈尔滨市南岗区*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种应用于异分布数据环境的主动学习算法。包括具体步骤在训练数据上训练分类模型;使用分类模型预测未标注样本所属类别;若样本属于该类别,使用训练数据的密度函数计算样本信息含量,若样本不属于该类别,使用未标注数据上分类模型的期望风险改变大小计算样本信息含量;对未标注样本的信息含量进行排序;选取对分类模型训练最有利的样本,添加标注信息后加入训练数据集;上述步骤迭代进行,直至学习算法的标注代价或分类模型精度达到预设标准为止。本发明利用分类模型对未标注样本所属类别的预测结果,分别选择不同标准估计待选样本的信息含量,保证了异分布数据环境下主动学习能够以较低标注代价获得高泛化能力的分类模型。
搜索关键词: 一种 应用于 分布 数据 环境 主动 学习方法
【主权项】:
一种应用于异分布数据环境的主动学习方法,其特征是:步骤一:在主动学习的每轮迭代过程中,使用观察到的训练数据训练分类模型;步骤二:使用所述分类模型预测未标注数据集中每个样本的所属类别;步骤三:根据样本是否属于当前学习类别,分别调用不同的样本信息含量估计函数对其包含的信息含量进行估计,具体包括:当样本属于当前学习类别时,使用训练数据集上的分布密度函数p(x)估计该样本x的信息含量,其估计过程为:p(x)=argminpE[R^D(w)-RU(w)]2]]>其中,w表示分类模型的参数向量,RU(w)为未标注数据集上分类模型的期望风险,为训练数据集上使用密度函数对每个标注样本加权后计算得到的分类模型风险值,其计算过程为:R^D(w)=1ZΣi=1m1p(xi)l(y^i,yi),Z=Σi=1m1p(xi)]]>m为样本个数;当样本x不属于当前学习类别时,使用该样本对未标注数据集U上分类模型的期望风险的影响G(U,x)作为其信息含量度量标准,其估计过程为:G(U,x)=Σy∈{0,1}p(y|x;w)·▿(U,x)]]>其中,表示当未标注样本x添加标注信息并加入训练数据集后,相应的分类模型的增益值,其计算过程为:▿(U,x)=[l(y,y^)-RU(w)]2;]]>步骤四:对所有未标注样本的信息含量按照升序排序,选择对分类模型训练最有帮助的样本x*;步骤五:将所选择的样本x*添加标注信息,并将所选样本及其对应的正确标注信息{x*,y*}添加到训练数据集中,同时,将未标注样本x*从未标注样本集中移除;步骤六:重复进行步骤一至步骤五,直至分类模型的精度或者所选样本的标注代价达到既定标准为止。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710512292.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top