[发明专利]一种在噪音标注下能够有效识别模型未知错误的方法在审

专利信息
申请号: 201810529347.3 申请日: 2018-05-29
公开(公告)号: CN108898226A 公开(公告)日: 2018-11-27
发明(设计)人: 杨静;郑波;徐聪 申请(专利权)人: 华东师范大学
主分类号: G06N99/00 分类号: G06N99/00
代理公司: 上海蓝迪专利商标事务所(普通合伙) 31215 代理人: 徐筱梅;张翔
地址: 200241 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 错误标注 标注 有效识别 噪音 最近邻算法 标识算法 错误识别 降低噪音 模型假设 特征空间 发现 预算 检测 部署
【说明书】:

发明公开了一种在噪音标注下能够有效识别模型未知错误的方法,其特点是在挑选当前最有可能是模型未知错误时采用动态最近邻算法,降低噪音标注导致的伪未知错误对于标识算法的影响,在有错误标注情况下,基于众包机制对模型进行有效的未知错误识别检测,在有限的预算和固定错误标注率下发现更多模型的未知错误。本发明与现有技术相比具有对模型假设的要求低,只需未知错误不是均匀分布在特征空间上即可,实施简单,易于部署到真实任务中去,在有限的预算和固定错误标注率下发现更多模型的未知错误,同时能够做到发现的未知错误中真正意义上是模型本身存在而不是因为错误标注导致的未知错误的比率高。

技术领域

本发明涉及机器学习下的模型诊断和主动学习技术领域,尤其是一种在噪音标注下能够有效识别模型未知错误的方法。

背景技术

在机器学习任务中,很多预测模型在原始实验测试集上经常会有比较好的预测结果,但是当部署到现实环境中去后,由于收集到的训练集和正式数据集之前的分布存在差异会导致模型的预测结果比实验结果要差。同时,在一些高风险的任务中(比如医疗诊断),一些结果的预测错误所造成的实际影响会比其他任务大很多,有些甚至是灾难性的。其中一种常见的错误例子就是模型对于一个实例预测错误同时给予非常高的置信度(被称作Unknown Unknowns)。这类错误的产生原因大多是因为原始训练数据集相对现实世界分布上存在偏差,想从训练数据分布上去弥补这类问题例子的出现是非常困难的。

目前,一般的风险控制方法(比如提高阈值)对于这类错误例子来说效果也是有限的。因此,从模型诊断的角度出发,要想保证模型在真实世界中的预测性能需要对这些未知错误进行识别,由于这些未知错误是模型高自信的,因此仅借助于模型本身是无法做到对他们的有效识别,引入众包机制对于识别未知错误一种比较有前途的做法。但是由于人在标注的时候会因为各种因素导致标注错误的发生,而这些错误标注导致的未知错误对于整个识别系统来讲危害是极大的。

现有技术不能有效且能够对错误标注有鲁棒性的识别未知错误错误方法。

发明内容

本发明的目的是针对现有技术的不足而设计的一种在噪音标注下能够有效识别模型未知错误的方法,采用动态最近邻算法和众包机制,在有错误标注情况下,对模型进行有效的未知错误识别检测,降低噪音标注导致的伪未知错误对于标识算法的影响,在有限的预算和固定错误标注率下发现更多模型的未知错误,同时能够做到发现的未知错误中真正意义上是模型本身存在而不是因为错误标注导致的未知错误的比率高,大大提高了模型的预测结果,效率高,准确性好,使预测结果更符合或接近现实,为用户提供真实、有效的信息和预测。

本发明的目的是这样实现的:一种在噪音标注下能够有效识别模型未知错误的方法,其特点是在挑选当前最有可能是模型未知错误时采用动态最近邻算法,降低噪音标注导致的伪未知错误对于标识算法的影响,在有错误标注情况下,基于众包机制对模型进行有效的未知错误识别检测,在有限的预算和固定错误标注率下发现更多模型的未知错误,其具体识别按下述步骤进行:

步骤a:在每次查询的时候从未标注过的样本中随机或者挑选当前最有可能是模型未知错误的样本。

步骤b:在挑选当前最有可能是模型未知错误的时候,借助于一种动态最近邻算法来降低噪音标注导致的伪未知错误对于标识算法的影响,同时能够做到高效利用已经标注过的样本信息,具体为:

(1)、对于每一个已经查询过的点统计附近最近K个被查询过的点是否是未知错误的情况;

(2)、拿周围点是未知错误的比率作为该点是未知错误的概率评估;

(3)、用该后验估计作为这个点附近最近一个点是否是未知错误的概率近似,同时也是该点是否是由于错误标注导致的伪未知错误的后验估计;

(4)、拿每个邻近点的概率估计作为依据,挑出最有可能是未知错误的点进行查询。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810529347.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top