[发明专利]数据生成装置、预测器学习装置、数据生成方法和学习方法在审
申请号: | 201980078575.6 | 申请日: | 2019-12-13 |
公开(公告)号: | CN113168589A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 但马庆行;河野洋平 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京尚诚知识产权代理有限公司 11322 | 代理人: | 龙淳;徐飞跃 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 生成 装置 预测 学习 方法 学习方法 | ||
本发明提供一种生成数据集合的数据生成装置,其包括:扰动生成部,其基于训练数据集合的各元素的输入和关于所述训练数据集合的信息这两者中的至少一者,来生成用于使所述元素变形的扰动集合;伪数据合成部,其根据所述训练数据集合和所述扰动集合,来生成与所述训练数据集合不同的新的伪数据集合;评价部,其计算所述训练数据集合和所述伪数据集合的分布间距离或关于其的推算量,以及从所述扰动集合得到的伪数据相对于训练数据的扰动的大小;和参数更新部,其更新所述扰动生成部生成所述扰动集合时所使用的参数,以使所述训练数据集合与所述伪数据集合的分布间距离相接近,使扰动的大小或期待值成为预定的目标值。
本申请主张平成31年(2019年)1月10日申请的日本申请即特愿2019-2436的优先权,通过参照其内容,编入本申请。
技术领域
本发明涉及生成机器学习中使用的数据的数据生成装置。
背景技术
目前,应用了机器学习的系统、服务正在普及。例如,许多企业通过运用装置、设备、车辆等多种多样的物理的资产(asset),来进行经济活动。这些资产由于电气的或机械的原因而有时不正常或发生故障。因此,适当通过预测的或应对措施即零件及消耗品的更换、单元的更换及修缮等而在运用上不会产生大的故障是重要的。但是,由于资产的复杂化、以及熟练的保养员或修理工的短缺等,有时无法采取适当的措施。因此,正在研究一种系统,其通过基于过去的运转实绩及修理历史等信息来推荐适当的措施,补充保养员或操作员的作业,能够实现资产稳定地运转。
在上述的应用了机器学习的系统及服务中,预测器是根据关于输入及输出的训练数据集合,基于学习其输入输出的关系性的被称为监督学习或半监督学习的框架来构建的。该预测器对于训练数据集合中未包含的数据要求高的预测性能(通用性能)。因此,目前提出了以神经网络为代表的预测器的各种模型。
另一方面,作为另一种方法,有通过使将训练数据集合适当地变形或变换而得到的伪数据集合与原始的训练数据集合一起用于学习,以实现通用性能提高的方法。将这种伪数据生成称为数据扩充。例如,通常来说,如果为图像,则可以通过对训练数据集合进行旋转、扩大、缩小、移动等变形来扩充数据。然而,就上述的运转实绩及修理历史等在产业上处理的大多数据而言,如图像那种有效起作用的启发式的数据扩充方法不清楚的情况也有很多。因此,采用通过将根据参数的分布的标本和原始的训练数据集合混合来扩充数据的方法。例如,通过将遵循小的标准偏差的正态分布的标本的元素添加到原始数据的元素中,能够进行数据扩充。然而,在数据扩充后的训练数据集合的分布与原始的训练数据集合的分布大不相同的情况下,性能有时降低。
作为本技术领域的背景技术,有以下的现有技术。在日本特开2006-343124号中,作为根据传感器响应来推算化学物质浓度的技术,公开了以下技术,即:“掌握化学数据的插值误差作为随机变量,推算插值误差的概率密度函数。通过反复多次生成遵循插值误差的推算概率密度函数的伪随机数矢量,并将伪插值误差矢量与从插值曲面上的矢量随机选出的矢量相加而生成新的数据矢量,生成反映了插值曲面及插值误差的特征的多个数据矢量即伪数据。使神经网络学习伪数据。将传感器应用于未知的受验试样,测定传感器响应。在学习完成后的神经网络中输入传感器响应,根据神经网络的输出来推算多个化学物质的未知浓度。”。
发明内容
发明要解决的问题
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980078575.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:抗金黄色葡萄球菌抗体的组合
- 下一篇:液晶乳化组合物及其制造方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置