[发明专利]一种应用于异分布数据环境的主动学习方法在审

申请号：	201710512292.0	申请日：	2017-06-29
公开（公告）号：	CN107247996A	公开（公告）日：	2017-10-13
发明（设计）人：	吴伟宁	申请（专利权）人：	哈尔滨工程大学
主分类号：	G06N99/00	分类号：	G06N99/00;G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种应用于异分布数据环境的主动学习算法。包括具体步骤在训练数据上训练分类模型；使用分类模型预测未标注样本所属类别；若样本属于该类别，使用训练数据的密度函数计算样本信息含量，若样本不属于该类别，使用未标注数据上分类模型的期望风险改变大小计算样本信息含量；对未标注样本的信息含量进行排序；选取对分类模型训练最有利的样本，添加标注信息后加入训练数据集；上述步骤迭代进行，直至学习算法的标注代价或分类模型精度达到预设标准为止。本发明利用分类模型对未标注样本所属类别的预测结果，分别选择不同标准估计待选样本的信息含量，保证了异分布数据环境下主动学习能够以较低标注代价获得高泛化能力的分类模型。
搜索关键词：	一种应用于分布数据环境主动学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种应用于异分布数据环境的主动学习方法，其特征是：步骤一：在主动学习的每轮迭代过程中，使用观察到的训练数据训练分类模型；步骤二：使用所述分类模型预测未标注数据集中每个样本的所属类别；步骤三：根据样本是否属于当前学习类别，分别调用不同的样本信息含量估计函数对其包含的信息含量进行估计，具体包括：当样本属于当前学习类别时，使用训练数据集上的分布密度函数p(x)估计该样本x的信息含量，其估计过程为：p(x)=argminpE[R^D(w)-RU(w)]2]]>其中，w表示分类模型的参数向量，RU(w)为未标注数据集上分类模型的期望风险，为训练数据集上使用密度函数对每个标注样本加权后计算得到的分类模型风险值，其计算过程为：R^D(w)=1ZΣi=1m1p(xi)l(y^i,yi),Z=Σi=1m1p(xi)]]>m为样本个数；当样本x不属于当前学习类别时，使用该样本对未标注数据集U上分类模型的期望风险的影响G(U,x)作为其信息含量度量标准，其估计过程为：G(U,x)=Σy∈{0,1}p(y|x;w)·▿(U,x)]]>其中，表示当未标注样本x添加标注信息并加入训练数据集后，相应的分类模型的增益值，其计算过程为：▿(U,x)=[l(y,y^)-RU(w)]2;]]>步骤四：对所有未标注样本的信息含量按照升序排序，选择对分类模型训练最有帮助的样本x*；步骤五：将所选择的样本x*添加标注信息，并将所选样本及其对应的正确标注信息{x*,y*}添加到训练数据集中，同时，将未标注样本x*从未标注样本集中移除；步骤六：重复进行步骤一至步骤五，直至分类模型的精度或者所选样本的标注代价达到既定标准为止。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学，未经哈尔滨工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710512292.0/，转载请声明来源钻瓜专利网。

上一篇：一种托盘塔脱硫装置脱硫效率的模糊建模方法
下一篇：一种风电场风机电量分析方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N99-00 本小类其他各组中不包括的技术主题

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种应用于异分布数据环境的主动学习方法在审

专利文献下载