[发明专利]一种应用于异分布数据环境的主动学习方法在审
申请号: | 201710512292.0 | 申请日: | 2017-06-29 |
公开(公告)号: | CN107247996A | 公开(公告)日: | 2017-10-13 |
发明(设计)人: | 吴伟宁 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06N99/00 | 分类号: | G06N99/00;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种应用于异分布数据环境的主动学习算法。包括具体步骤在训练数据上训练分类模型;使用分类模型预测未标注样本所属类别;若样本属于该类别,使用训练数据的密度函数计算样本信息含量,若样本不属于该类别,使用未标注数据上分类模型的期望风险改变大小计算样本信息含量;对未标注样本的信息含量进行排序;选取对分类模型训练最有利的样本,添加标注信息后加入训练数据集;上述步骤迭代进行,直至学习算法的标注代价或分类模型精度达到预设标准为止。本发明利用分类模型对未标注样本所属类别的预测结果,分别选择不同标准估计待选样本的信息含量,保证了异分布数据环境下主动学习能够以较低标注代价获得高泛化能力的分类模型。 | ||
搜索关键词: | 一种 应用于 分布 数据 环境 主动 学习方法 | ||
【主权项】:
一种应用于异分布数据环境的主动学习方法,其特征是:步骤一:在主动学习的每轮迭代过程中,使用观察到的训练数据训练分类模型;步骤二:使用所述分类模型预测未标注数据集中每个样本的所属类别;步骤三:根据样本是否属于当前学习类别,分别调用不同的样本信息含量估计函数对其包含的信息含量进行估计,具体包括:当样本属于当前学习类别时,使用训练数据集上的分布密度函数p(x)估计该样本x的信息含量,其估计过程为:p(x)=argminpE[R^D(w)-RU(w)]2]]>其中,w表示分类模型的参数向量,RU(w)为未标注数据集上分类模型的期望风险,为训练数据集上使用密度函数对每个标注样本加权后计算得到的分类模型风险值,其计算过程为:R^D(w)=1ZΣi=1m1p(xi)l(y^i,yi),Z=Σi=1m1p(xi)]]>m为样本个数;当样本x不属于当前学习类别时,使用该样本对未标注数据集U上分类模型的期望风险的影响G(U,x)作为其信息含量度量标准,其估计过程为:G(U,x)=Σy∈{0,1}p(y|x;w)·▿(U,x)]]>其中,表示当未标注样本x添加标注信息并加入训练数据集后,相应的分类模型的增益值,其计算过程为:▿(U,x)=[l(y,y^)-RU(w)]2;]]>步骤四:对所有未标注样本的信息含量按照升序排序,选择对分类模型训练最有帮助的样本x*;步骤五:将所选择的样本x*添加标注信息,并将所选样本及其对应的正确标注信息{x*,y*}添加到训练数据集中,同时,将未标注样本x*从未标注样本集中移除;步骤六:重复进行步骤一至步骤五,直至分类模型的精度或者所选样本的标注代价达到既定标准为止。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710512292.0/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置