[发明专利]一种基于强化学习的逆变器优化控制方法有效
申请号: | 202110447571.X | 申请日: | 2021-04-25 |
公开(公告)号: | CN113131771B | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 孙伟;吕秋硕;黄磊;朱世睿;朱梦雨;李奇越;李帷韬 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | H02M7/42 | 分类号: | H02M7/42;H02M7/48 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 逆变器 优化 控制 方法 | ||
本发明公开了一种基于强化学习的逆变器优化控制方法,其步骤包括:1、建立强化学习控制模块和逆变器数学模型;2、建立强化学习的本地奖励;3、训练进行逆变器优化控制的强化学习模块;4、应用强化学习模块进行逆变器优化控制。本发明能克服逆变器产生的系统频率和电压偏差问题,从而能有效进行频率恢复和电压调节,以保证逆变器的稳定运行。
技术领域
本发明涉及一种基于强化学习的逆变器优化控制方法,属于电力系统领域。
背景技术
近年来,人们处在一个“移动”的时代,移动办公,移动通讯,移动休闲和娱乐。在移动的状态中,人们不仅需要由电池或电瓶供给的低压直流电,同时更需要在日常环境中不可或缺的220伏交流电,因此对于逆变器的需求也呈指数级增长。一方面,人们不断开发新的逆变器类型;另一方面,各种逆变器的优化策略也使得逆变器的效率和适用性大大增加。然而,采用传统的逆变器控制在进行电压转换时会产生频率、电压幅值偏差甚至会产生环流等,这已经成为影响逆变器功能的精确性和稳定性的重大问题。随着机器学习的发展,强化学习的优势逐渐凸显出来,它可以智能的根据环境提供的强化信号对产生动作的好坏进行评价,通过这个行动-评价环境获得知识,改进行动方案以适应环境。
传统的逆变器控制从工作原理是来看可以认为是由开关三极管和二极管组成,因此存在正向管压降和开关延迟时间,同时为了防止逆变器上下臂短路,需要在PWM门信号上设定死区时间。由于这些原因,当系统负荷发生变化的时候,不能保证逆变器频率和电压稳定在额定值。因此,如何在传统的逆变器控制的基础上对逆变器频率和电压进行优化控制成为了研究中的难题。
发明内容
针对现有技术中的上述不足之处,本发明提供一种基于强化学习的逆变器优化控制方法,以期能克服逆变器产生的系统频率和电压偏差问题,并能对逆变器频率和电压进行快速优化和控制,以保证优化控制的精确性和稳定性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于强化学习的逆变器优化控制方法的特点在于,包括以下步骤:
步骤1、构建逆变器数学模型和强化学习控制模块,其中,所述强化学习控制模块包括进行策略运算的策略体和动作执行的执行体;
步骤1.1、逆变器数学模型的建模:
令所述逆变器数学模型的输入为表示所述执行体第n次训练时第t次决定的动作;令所述逆变器数学模型的输出状态为并反馈给所述执行体和策略体,其中,为逆变器数学模型执行第n次训练时的第t次动作后的下一时刻的交流频率,为逆变器数学模型执行第n次训练时的第t次动作后的下一时刻的交流电压;
步骤1.2、强化学习控制模块的建模:
所述强化学习控制模块的策略体由两层神经元网络组成,其输入为状态输出为执行所有动作集合A的概率π(A);
所述强化学习控制模块的执行体包括交互模块和奖励计算模块;所述交互模块根据策略体输出的概率π(A),利用随机选取的函数决定实际执行动作并输出给所述逆变器数学模型,其中,所述奖励计算模块根据逆变器数学模型的状态计算第n次训练时的第t+1次动作的本地奖励r(t+1)n,并在第n次训练的存储轨迹τn中增加第t+1次动作产生的轨迹;
步骤2、根据逆变器数学模型对强化学习控制模块进行训练;
步骤2.1、在所述策略体的两层神经网络中,用θ代表两层神经网络的参数集合,并随机初始化;定义策略体的第n次训练两层神经网络的输入、输出策略为πn(θ);初始化n=1;
步骤2.2、初始化t=0,并随机初始化动作将动作输入给逆变器数学模型并输出状态给策略体和执行体;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110447571.X/2.html,转载请声明来源钻瓜专利网。