[发明专利]煤气井井段类型预测的代价敏感主动学习方法在审
申请号: | 201910776076.6 | 申请日: | 2019-08-22 |
公开(公告)号: | CN110543983A | 公开(公告)日: | 2019-12-06 |
发明(设计)人: | 汪敏;赵飞;闵帆;张樱弋;肖伊曼 | 申请(专利权)人: | 西南石油大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/02;G06K9/62 |
代理公司: | 51241 成都方圆聿联专利代理事务所(普通合伙) | 代理人: | 李鹏<国际申请>=<国际公布>=<进入国 |
地址: | 610500 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种煤气井井段预测的代价敏感主动学习方法,属于人工智能领域,选择最具有价值的缺失属性值进行购买,使得总代价最小。其中缺失属性值先由各属性的加权平均值进行填补,由softmax回归计算误分类代价,选择代价最小的填补方式,即为最有价值的缺失属性值。本发明的有益效果:1)本发明可以选出最有价值的属性和样本,减少了多余属性值的购买,降低了总体代价。2)在样本填补过后,将属性值齐全的样本加入初始训练集,可一定程度的提高模型的精确度。3)由于考虑了加权平均值,当数据集缺失率较高时,以加权平均值的填补可以使最终的预测精度提高。 | ||
搜索关键词: | 加权 填补 样本 人工智能领域 回归计算 主动学习 缺失率 数据集 训练集 预测 购买 煤气 敏感 分类 | ||
【主权项】:
1.一种煤气井井段类型预测的代价敏感主动学习方法,其特征在于:/n优化目标:总代价最小/n /nk-类别个数;m—属性个数;P(yj|xi)-某方案下第i个样本被分为第j类的概率;M-误分类代价;A-属性代价;T-教师代价;Xil-指示函数0/1,为1则表示购买相应位置的缺失属性值;/n1)初始训练集/n首先使用DP算法,产生c个聚类中心,选择这c个中心作为初始训练集,也是构成最终训练集的第一部分;方法对象:需要聚类的数据集;方法目的:以数据集中的每一个实例的密度为模型基础,将待聚类的实例进行聚类;/n2)利用初始训练集,训练出θ/n利用最大似然,对参数θ进行估计;/n代价函数:/n /n这里的i∈{1,2,…,N},表示第i个样本,其中N是总样本个数。j∈{1,2,…,k},表示第j个类别,其中k是总类别个数。加号后面为正则项,能使多余的θ衰减到0,并且加正则项后代价函数为凸,利用梯度下降可得到全局最优解,根据初始训练集可推导出最优参数θ;/n具体求解方法:Softmax回归;/n对于J(θ)的最小化问题,采用梯度下降法计算,Softmax的函数公式如下:/n /n其中zj表示第j个样本的输入,aj表示第几个第j个样本归一化后的输出;/n如果样本个数与类标签个数一致,即i=j时:/n /n如果样本个数与类标签个数不一致,即i≠j时:/n /n在J(θ)代价函数中取出对单一数据对(x(i),y(i))的损失函数loss为:/n /n其中,ak表示第k个样本的输出,yk表示第k个样本对应的真实值,取值为0或1;/n将C对θj求偏导:/n /n其中L表示层数,通常指最后一层;/n将损失函数扩充到整个数据集{(x(1),y(1)),...,(x(m),y(m))}上:/n /n则有:/n /n所以在进行随机梯度下降的时候,更新式为:/n /n3)使用Softmax求出样本所属的类别概率/nLogistic回归,其训练样本是/n{(x(1),y(1)),…,x(m),y(m)},y∈{-1,+1},/n /n训练好模型中的参数θ后,给一个新的x(i),就可以根据模型来预测x(i)对应的y(i)=1或0的概率;/nLogistic回归处理的是二分类问题,而Softmax是在其基础上的扩展,处理的是多分类问题;/n对于训练集{(x(1),y(1)),…,(x(m),y(m))},输入 类标签y(i)∈{1,2,…,k};/n /nSoftmax回归中将x(i)分类为类别j的概率为/n /n利用这个概率来计算误分类代价;/n4)计算加权平均值/n加权平均值即将各数值乘以相应的权数,然后加总求和得到总体值,再除以总的单位数,若n个数x1,x2,…,xn的权分别是w1,w2,…,wn,那么加权平均值为:/n /n如果数据中各个数值为离散值,则在数据中取最小值和最大值组成区间[min,max],并将其等分为n个区间,计算落在各个区间的数据平均值 以及数据个数k1,k2,…,kn,那么加权平均值为:/n /n将求得的各属性的加权平均值,用于初始的属性值填补中;/n5)求总代价/nI)属性代价/n根据样本中属性缺失的个数,进行不同的属性购买方案,选择不同的属性购买方案,属性代价不同,属性代价计算式为/n /nII)误分类代价/n根据上一步中的填补方案,不同的填补方案得到的softmax分类概率不同,选择概率最大的一个概率maxP(yj|xi),将其分类为该类别,则误分类概率为(1-maxP(yj|xi)),误分类代价为/n(1-maxP(yj|xi))·M (12)/nIII)教师代价/n选择样本各属性方案的属性代价与误分类代价之和的最小值,与教师代价做比较,如果大于教师代价,则选择教师代价,直接购买标签,反之则选择该方案下的softmax分类标签;/n6)得到优化目标最优解时的方案列表/n重复第5)点里的算法,得到整个数据集中每个样本在得到优化目标最优解时的方案,构成一个整体方案列表;/n7)求预测标签/n按照得到的方案列表,对每一个样本进行相应的真实属性值购买,并用softmax求得最终的分类结果。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南石油大学,未经西南石油大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910776076.6/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理