[发明专利]自主自学习系统在审
申请号: | 202080027621.2 | 申请日: | 2020-03-02 |
公开(公告)号: | CN113711238A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | A·迈尔 | 申请(专利权)人: | 弗里德里希-亚历山大埃尔朗根-纽伦堡大学 |
主分类号: | G06N3/00 | 分类号: | G06N3/00;G06N3/04;G06N3/08 |
代理公司: | 南京苏创专利代理事务所(普通合伙) 32273 | 代理人: | 张学彪 |
地址: | 德国埃*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自主 自学习 系统 | ||
提供一种借助智能体(S)的第一神经网络(NN1)控制技术系统的方法,其中:将第一神经网络(NN1)的第一输入向量(x)和当前状态(ht)共同转变为第一神经网络(NN1)的新状态(ht+1),由所述新状态生成第一神经网络(NN1)的第一输出向量(y);将第一神经网络(NN1)的第一输出向量(y)馈送至第二人工神经网络(NN2),由第二神经网络(NN2)的新状态(wt+1)生成第二神经网络(NN2)的第一输出向量(x'),第一输出向量表示第二神经网络(NN2)对第一神经网络(NN1)的第一输入向量(y)的预期反应,且将第二神经网络(NN2)的第一输出向量(x')与第一神经网络(NN1)的第一输入向量(x)进行对比,以便训练第一神经网络(NN1)。
技术领域
本发明涉及自动的自主工作系统领域。本发明特别是涉及一种借助实现人工神经网络的智能体控制技术系统的方法。
背景技术
现有技术中已揭露过所谓的深度神经网络。
在此,对于本发明而言尤为重要的人工神经网络领域中的技术是所谓的循环神经网络(反馈型神经网络)和所谓的强化学习(增强学习或增强式学习)。两者都适用于对用于控制技术系统的智能体进行建模。
循环神经网络是一种能够将一般自动装置表现为可学习系统的技术。就此而言的示例在图1和图2中作为简化框图示出。
图1示出由现有技术已知的循环神经网络。此循环神经网络具有输入x、状态ht和输出y。将输入x和当前状态ht共同转变为新状态ht+1,即由输入x和当前状态ht生成神经网络的新状态ht+1。然后由这个新状态ht+1生成输出y。
图1和图2中用虚线箭头示出的转变是可学习的。其中,每个箭头都是通用函数逼近器。在最简单的情况下,这些函数逼近器可以由具有隐藏层的全连接网络构成。也可以使用更深度的所谓的前馈模型。为此,需要训练网络。
就训练而言,必须已知包括输入向量x和参考向量y*的对。这样就能进行所谓的监督训练,为此可以使用不同的优化或训练方法,例如所谓的梯度下降法或所谓的模拟退火法。也可以使用其他优化或训练方法。
图2示出现有技术中已揭露的针对循环神经网络的替代方案,即所谓的长短期记忆网络(LSTM)。这些长短期记忆网络还具有内存储器ct。设置这种内存储器ct还可以对长期相关性进行建模。
更复杂的存储器访问也可以借助人工神经网络来实现。就此而言的一个示例是所谓的记忆增强神经网络或神经图灵机。
强化学习能够实现对自动式系统的训练,这些系统试图获得最大的未来奖励。这些系统试图尽可能好地解决给定的问题。
现有技术中已揭露的人工神经网络的缺点在于,无论使用何种训练方法,训练神经网络的一个重要前提是必须精确地表述问题并且必须精确地预设目标变量,即奖励。这样例如就能解决诸如象棋或围棋之类的游戏,其中可以精确地表述问题并且可以精确地预设目标变量。
另外,现有技术中已揭露的方法的一个基本问题在于,或是对于训练而言,参考y*是必不可少的,或是必须对整个世界包括所有游戏规则和公理进行建模以进行训练。
现有技术中未揭露过基于人工神经网络的通用问题解算机,其自学规则,即问题描述和解决方案,进而可以解决新的、未知的问题。
发明内容
因此,本发明的目的是提供能够用来控制技术系统而无需对所述技术系统的环境进行建模的解决方案。
本发明用以达成上述目的的解决方案在于根据独立权利要求所述的一种借助第一智能体控制技术系统的方法。本发明的有利技术方案和改进方案在从属权利要求中给出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于弗里德里希-亚历山大埃尔朗根-纽伦堡大学,未经弗里德里希-亚历山大埃尔朗根-纽伦堡大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080027621.2/2.html,转载请声明来源钻瓜专利网。