[发明专利]含有不可忽略缺失数据的估计方程的稳健估计方法在审

专利信息
申请号: 201610221853.7 申请日: 2016-04-11
公开(公告)号: CN105930303A 公开(公告)日: 2016-09-07
发明(设计)人: 宋允全 申请(专利权)人: 中国石油大学(华东)
主分类号: G06F17/11 分类号: G06F17/11
代理公司: 青岛联信知识产权代理事务所 37227 代理人: 徐艳艳;王月玲
地址: 266555 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种含有不可忽略缺失数据的估计方程的稳健估计方法,步骤为:Q(θ,Y,X),在不可忽略缺失数据模型为logistic回归模型时,通过重要重采样算法计算插补的估计方程中包含的条件期望m(θ,x),得到修正的估计方程然后基于修正的估计方程并利用经验似然方法求得估计方程中未知参数θ的稳健经验似然估计。本发明通过用估计方程插补含缺失数据的估计方程而非插补缺失值的方法以及经验似然法对估计参数进行稳健俺估计,成功避免了非参数核估计方法当协变量的维数较高时产生“维数祸根”的问题,大幅改进了存在不可忽略缺失数据时数据处理的精度,提高了预测准确性。
搜索关键词: 含有 不可 忽略 缺失 数据 估计 方程 稳健 方法
【主权项】:
一种含有不可忽略缺失数据的估计方程的稳健估计方法,其特征在于:含有以下步骤:(一)利用数据采集工具采集完全数据和含有不可忽略缺失数据的数据,确定含有不可忽略缺失数据下响应变量的条件密度函数与完全数据下响应变量的条件密度函数之间的关系,确定上述两者之间关系的具体步骤为:(1)给定估计方程Q(θ,Y,X)以及来自联合分布函数F(y,x)的独立同分布的随机样本其中总是可以观测的,而的值是缺失的;(2)引入响应变量Yi的示性函数δi,即如果Yi可观测,则δi=1,否则δi=0,且满足对任意的i≠j,假设δi和δj是独立的;(3)令f(y|x,δ=1)表示给定X=x和δ=1下Y的条件密度函数,f(y|x,δ=0)表示给定X=x和δ=0下Y的条件密度函数;(4)假设不可忽略缺失数据的缺失数据模型为logistic回归模型,表示为:<mrow><mi>P</mi><mrow><mo>(</mo><msub><mi>&delta;</mi><mi>i</mi></msub><mo>=</mo><mn>1</mn><mo>|</mo><msub><mi>X</mi><mi>i</mi></msub><mo>,</mo><msub><mi>Y</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>&pi;</mi><mrow><mo>(</mo><msub><mi>X</mi><mi>i</mi></msub><mo>,</mo><msub><mi>Y</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>exp</mi><mrow><mo>(</mo><mi>g</mi><mo>(</mo><msub><mi>X</mi><mi>i</mi></msub><mo>)</mo><mo>+</mo><msub><mi>&phi;Y</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow><mrow><mn>1</mn><mo>+</mo><mi>exp</mi><mrow><mo>(</mo><mi>g</mi><mo>(</mo><msub><mi>X</mi><mi>i</mi></msub><mo>)</mo><mo>+</mo><mi>&phi;</mi><mi>Y</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>其中,g(·)为未知函数,φ是未知的参数,参数φ决定数据是随机缺失还是非随机缺失;(5)引入指标参数向量β,假设f(y|x,δ=1)的一个参数模型为f(y|x,δ=1;β),用来表示完全数据下响应变量的条件密度函数;(6)在假设的logistic回归模型下,f(y|x,δ=0)的一个参数模型为f(y|x,δ=0;β,φ),用来表示含有不可忽略缺失数据下响应变量的条件密度函数,得到含有不可忽略缺失数据时响应变量的条件密度函数f(y|x,δ=0;β,φ)与完全数据时响应变量的条件密度函数f(y|x,δ=1;β)之间满足的指数偏斜模型,该指数偏斜模型表示为:<mrow><mi>f</mi><mrow><mo>(</mo><mi>y</mi><mo>|</mo><mi>x</mi><mo>,</mo><mi>&delta;</mi><mo>=</mo><mn>0</mn><mo>;</mo><mi>&beta;</mi><mo>,</mo><mi>&phi;</mi><mo>)</mo></mrow><mo>=</mo><mi>f</mi><mrow><mo>(</mo><mi>y</mi><mo>|</mo><mi>x</mi><mo>,</mo><mi>&delta;</mi><mo>=</mo><mn>1</mn><mo>;</mo><mi>&beta;</mi><mo>)</mo></mrow><mo>&times;</mo><mfrac><mrow><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mi>&phi;</mi><mi>y</mi><mo>)</mo></mrow></mrow><mrow><mi>E</mi><mrow><mo>(</mo><mi>exp</mi><mo>(</mo><mrow><mo>-</mo><mi>&phi;</mi><mi>Y</mi></mrow><mo>)</mo><mo>|</mo><mi>x</mi><mo>,</mo><mi>&delta;</mi><mo>=</mo><mn>1</mn><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow><mo>;</mo></mrow>(二)获取f(y|x,δ=0;β,φ)和f(y|x,δ=1;β)的参数形式中的参数β和φ的估计,其具体步骤为:(1)由步骤(一)中给定的X=x和δ=1下Y的条件密度函数f(y|x,δ=1)获得参数得分函数利用解得分方程得到参数β的极大似然估计(2)依据follow‑up sample,在follow‑up sampling后,如果Yi可观测令γi=1,否则令γi=0;通过解得到参数φ的一个相合估计(三)利用重要重采样算法来计算含有不可忽略缺失数据时关于响应变量的条件期望m(θ,x)=E(Q(θ,Y,X)|X=x,δ=0),其具体步骤为:(1)用代替条件密度函数f(y|x,δ=1;β)中的β,得到新的条件密度函数(2)从新得到的条件密度函数中抽取样本S={Y(k),k=1,2,…,M2},计算S中每个点的概率质量<mrow><msub><mi>&omega;</mi><mi>k</mi></msub><mrow><mo>(</mo><mover><mi>&phi;</mi><mo>^</mo></mover><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mover><mi>&phi;</mi><mo>^</mo></mover><msup><mi>Y</mi><mrow><mo>(</mo><mi>k</mi><mo>)</mo></mrow></msup><mo>)</mo></mrow></mrow><mrow><mfrac><mn>1</mn><msub><mi>M</mi><mn>2</mn></msub></mfrac><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>M</mi><mn>2</mn></msub></msubsup><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mover><mi>&phi;</mi><mo>^</mo></mover><msup><mi>Y</mi><mrow><mo>(</mo><mi>j</mi><mo>)</mo></mrow></msup><mo>)</mo></mrow></mrow></mfrac><mo>,</mo><mi>k</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>M</mi><mn>2</mn></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mrow>(3)依据概率质量从S中有放回地抽取样本记抽出的样本为:(4)通过以下公式计算<mrow><msubsup><mi>m</mi><mn>0</mn><mo>*</mo></msubsup><mrow><mo>(</mo><mi>&theta;</mi><mo>,</mo><msub><mi>X</mi><mi>i</mi></msub><mo>;</mo><mover><mi>&beta;</mi><mo>^</mo></mover><mo>,</mo><mover><mi>&phi;</mi><mo>^</mo></mover><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mi>M</mi></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><mi>Q</mi><mrow><mo>(</mo><mi>&theta;</mi><mo>,</mo><msubsup><mi>Y</mi><mrow><mi>i</mi><mi>j</mi></mrow><mo>*</mo></msubsup><mo>,</mo><msub><mi>X</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>式中,θ为未知参数;(5)执行重要重采样算法,当执行SIR算法时,要求M2→∞且M/M2→0;(四)构造基于蒙特卡罗方法的估计函数其步骤为:(1)采用蒙特卡罗方法并利用步骤(三)中得到的导出估计函数<mrow><mover><mi>Q</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>&theta;</mi><mo>,</mo><msub><mi>Y</mi><mi>i</mi></msub><mo>,</mo><msub><mi>X</mi><mi>i</mi></msub><mo>;</mo><mover><mi>&beta;</mi><mo>^</mo></mover><mo>,</mo><mover><mi>&phi;</mi><mo>^</mo></mover><mo>)</mo></mrow><mo>=</mo><msub><mi>&delta;</mi><mi>i</mi></msub><mi>Q</mi><mrow><mo>(</mo><mi>&theta;</mi><mo>,</mo><msub><mi>Y</mi><mi>i</mi></msub><mo>,</mo><msub><mi>X</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>+</mo><mrow><mo>(</mo><mn>1</mn><mo>-</mo><msub><mi>&delta;</mi><mi>i</mi></msub><mo>)</mo></mrow><msubsup><mi>m</mi><mn>0</mn><mo>*</mo></msubsup><mrow><mo>(</mo><mi>&theta;</mi><mo>,</mo><msub><mi>X</mi><mi>i</mi></msub><mo>;</mo><mover><mi>&beta;</mi><mo>^</mo></mover><mo>,</mo><mover><mi>&phi;</mi><mo>^</mo></mover><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow><mo>;</mo></mrow>(2)验证是渐进无偏的;(五)构造关于未知参数θ的经验似然比函数,获得未知参数θ的最大经验似然估计其具体步骤为:(1)构造关于未知参数θ的经验似然比函数R(θ):<mrow><mi>R</mi><mrow><mo>(</mo><mi>&theta;</mi><mo>)</mo></mrow><mo>=</mo><mi>max</mi><mo>{</mo><munderover><mo>&Pi;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><mo>(</mo><msub><mi>np</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>|</mo><msub><mi>p</mi><mi>i</mi></msub><mo>&GreaterEqual;</mo><mn>0</mn><mo>,</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>p</mi><mi>i</mi></msub><mo>=</mo><mn>1</mn><mo>,</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>p</mi><mi>i</mi></msub><mover><mi>Q</mi><mo>^</mo></mover><mrow><mo>(</mo><mi>&theta;</mi><mo>,</mo><msub><mi>Y</mi><mi>i</mi></msub><mo>,</mo><msub><mi>X</mi><mi>i</mi></msub><mo>;</mo><mover><mi>&beta;</mi><mo>^</mo></mover><mo>,</mo><mover><mi>&phi;</mi><mo>^</mo></mover><mo>)</mo></mrow><mo>=</mo><mn>0</mn><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>(2)通过拉格朗日乘子法计算得到对数经验似然比函数log(R(θ)):<mrow><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><mi>R</mi><mo>(</mo><mi>&theta;</mi><mo>)</mo><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><mn>1</mn><mo>+</mo><msup><mi>&lambda;</mi><mi>T</mi></msup><mo>(</mo><mi>&theta;</mi><mo>)</mo><mover><mi>Q</mi><mo>^</mo></mover><mo>(</mo><mrow><mi>&theta;</mi><mo>,</mo><msub><mi>Y</mi><mi>i</mi></msub><mo>,</mo><msub><mi>X</mi><mi>i</mi></msub><mo>;</mo><mover><mi>&beta;</mi><mo>^</mo></mover><mo>,</mo><mover><mi>&phi;</mi><mo>^</mo></mover></mrow><mo>)</mo><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>其中,λ(θ)∈Rq,通过方程求解;(3)最大化对数经验似然比函数log(R(θ)),获得未知参数θ的最大经验似然估计
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610221853.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top