[发明专利]学习数据选择方法及设备以及计算机可读记录介质有效
申请号: | 201811094204.0 | 申请日: | 2018-09-19 |
公开(公告)号: | CN109522922B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 后藤启介;丸桥弘治;稻越宏弥 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F18/22;G06F18/2133;G06F18/214;G06F18/24 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 陈炜;杨林森 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 学习 数据 选择 方法 设备 以及 计算机 可读 记录 介质 | ||
公开了学习数据选择方法及设备以及计算机可读记录介质。为了选择对机器学习模型的输出因子进行估计的估计模型的学习数据,1)与输入到机器学习模型的输入数据组中包括的第一输入数据的指定相对应地提取与第一输入数据有关的第一输入数据组,2)分别获取被输入到机器学习模型并且与第一输入数据组对应的第一变换数据组以及机器学习模型的与第一变换数据组对应的第一输出数据组,以及3)从第一输入数据组中选择估计模型的学习目标数据,其中机器学习模型针对从输入数据变换的变换数据执行分类和确定。
技术领域
本文讨论的实施方式涉及选择学习目标数据的学习数据选择程序、学习数据选择方法和学习数据选择设备。
背景技术
最近,已经针对各种数据领域执行了使用机器学习的分类或确定。当使用机器学习时,可以以高准确度进行分类或确定。另一方面,通常,难以知道机器学习的哪个特征量是进行分类或确定的因子。
当机器学习执行分类或确定时,在不清楚通过哪个因子执行分类或确定的情况下,例如,在扩展机器学习的应用领域时会引起风险。
作为从由可以在机器学习中使用的分类器获得的分类结果来估计变成分类因子的特征的方法,已知一种称为与模型无关的局部可解释性解释(LIME)的方法(例如,请参阅“Why Should I Trust You?”Explaining the Predictions of Any Classifier,MarcoTulio Ribeiro等人,第22届ACM SIGKDD国际知识发现与数据挖掘会议论文集,2016年8月)。在LIME中,针对任意分类器f和输入数据u,估计和建议了对u的分类结果f(u)有很大贡献的u的元素和特征。
在2016年8月《第22届ACM SIGKDD国际知识发现与数据挖掘会议论文集》MarcoTulio Ribeiro等人的“Why Should I Trust You?”Explaining the Predictions of AnyClassifier中描述的LIME方法中,描述了以下配置。具体地,执行对图像被设置成目标的分类结果的原因的估计,以估计哪个图像部分对分类结果有贡献。
图2是示出分类器对输入数据的分类以及对分类因子的估计的概述的图。在通过使用典型机器学习的分类器执行的分类中,生成通过将输入数据变换为可以由分类器处理的维度而获得的变换数据,并且针对生成的变换数据执行学习和分类。
针对通过使用如图2所示的典型机器学习的分类器执行的分类,当通过LIME的方法针对分类结果执行对分类因子的估计时,对分类结果与变换数据的哪个因子相关进行估计,而不是对分类结果与输入数据的哪个因子相关进行估计。因此,很难说估计是有用的。
如上所述,在通过将输入数据变换为能够由分类器处理的维度来生成变换数据并且针对生成的变换数据执行学习和分类的机器学习的分类器中,需要估计输入数据中的分类因子。
图3是示出与机器学习的分类器有关的输入数据和变换数据的概况的图,在机器学习的分类器中执行了对从输入数据生成的变换数据的分类,并且输入数据和变换数据被提供给每个特征空间中的分类器。在图3中,点u与被确定为正例的数据对应,并且点v1、点v2和点v3与被确定为负例的数据对应。这些点是输入数据特征空间21和变换数据特征空间22上的点。
在变换数据特征空间22中,作为指示预测值大幅变化的方向的向量的说明性向量25-1、25-2、25-3和25-4被分别赋给点u、点v1、点v2和点v3。另外,在变换数据特征空间22中,近似识别线24是近似于正例和负例之间的识别边界的边界线。在输入数据特征空间21中,分类器的正例和负例之间的识别边界并不总是清楚的,并且因此在图3中的输入数据特征空间21中没有绘制近似识别线。
在此,针对图3中的点u附近执行如图2所示的对分类因子的估计的配置与估计识别因子26的配置对应,识别因子26指示识别正例和负例的近似识别线24的点u附近的识别因子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811094204.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置