[发明专利]一种基于强化学习的Windows窗体应用程序自学习智能机器人及其工作方法在审
申请号: | 202010722933.7 | 申请日: | 2020-07-24 |
公开(公告)号: | CN111882062A | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 张旭;刘扬;辛国栋;刘红日;孙云霄;王孝鹏 | 申请(专利权)人: | 哈尔滨工业大学(威海);威海天之卫网络空间安全科技有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06F11/36 |
代理公司: | 济南金迪知识产权代理有限公司 37219 | 代理人: | 许德山 |
地址: | 264209 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 windows 窗体 应用程序 自学习 智能 机器人 及其 工作 方法 | ||
1.一种基于强化学习的Windows窗体应用程序自学习智能机器人,其特征在于,包括学习任务下发模块、学习任务解析模块、自学习模块、知识库构建模块;
所述学习任务下发模块用于下发任务配置文件;所述任务配置文件包括需要进行学习的目标软件名称、目标软件中的按钮集合及目标软件的安装路径;所述学习任务解析模块用于接收到任务配置文件,分别对需要进行学习的目标软件名称、目标软件中的按钮集合及目标软件的安装路径进行解析,将解析后的信息作为自学习模块的参数;所述自学习模块用于接收解析后的信息并选取学习策略后对目标软件进行自学习;所述知识库构建模块用于存储所述自学习模块自学习后获取的知识。
2.根据权利要求1所述的一种基于强化学习的Windows窗体应用程序自学习智能机器人,其特征在于,所述任务配置文件的文本格式包括.csv、.txt、.ison、.inf。
3.权利要求1或2所述的Windows窗体应用程序自学习智能机器人的工作方法,其特征在于,包括步骤如下:
(1)所述学习任务下发模块下发任务配置文件;
(2)所述学习任务解析模块接收到所述学习任务下发模块下发的任务配置文件,分别对需要进行学习的目标软件名称、目标软件中的按钮集合及目标软件的安装路径进行解析,将解析后的信息作为自学习模块的参数;解析后的信息是指配置文件信息按照计算机内部文件编码规则转换成计算机识别的机器码;
(3)所述自学习模块接收解析后的信息并选取学习策略后对目标软件进行自学习,并自学习后获取的知识存储在所述自学习模块中。
4.根据权利要求3所述的Windows窗体应用程序自学习智能机器人的工作方法,其特征在于,步骤(3)中,接收解析后的信息并选取学习策略,是指:对于小型软件,选用Off-policy学习策略中Q-learning算法的学习策略;对于大型软件,选用On-policy学习策略中SARSA算法的学习策略。
5.根据权利要求3所述的Windows窗体应用程序自学习智能机器人的工作方法,其特征在于,步骤(3)中,通过Off-policy学习策略中Q-learning算法对目标软件进行自学习,包括步骤如下:
A、Q表初始化:在自学习开始之前,Q表中状态对应的值使用q值表示,q值全为0;
最终目标动作操作的奖励r是20,其它每一次动作操作的奖励rt为-1;
自学习模块在进行目软件探索和学习的时候,根据记忆和下一次的动作来不断地更新记忆,Q表来进行记忆的存储和更新;
q值表示状态价值函数Q(S,A)的值;
B、状态st下,t时刻智能机器人实施一个动作at,观察奖励rt,进入新的状态st+1,进行Q表的迭代更新,如式(I)所示:
Qnew(st,at)←Q(st,at)+α·[rt+γ·max Q(st+1,at)-Q(st,at)] (I)
式(I)中,在学习过程中,实施动作之后,对于状态st和动作at给定的q值Q(st,at)被新值Qnew(st,at)所迭代更新,Qnew(st,at)包括两部分组成,α为学习率,α的取值范围为[0,1],rt表示在t时刻执行动作at的奖励,γ表示折扣因子,γ的取值范围为[0,1],maxQ(st+1,at)是指智能机器人在选择未来的动作和状态所产生的q值;
智能机器人不断使用ε-greedy策略来选取对自己奖励最大的未来动作,ε-greedy策略如式(II)所示:
rt+γ·max Q(st+1,at) (II)
式(II)中,rt+γ·max Q(st+1,at)是现实中智能机器人在选择未来的动作和状态所产生的q值,式(II)是迭代公式,而rt+γ·max Q(st+1,at)-Q(st,at)是现实与估计值的差距,整个迭代的过程就是根据未来状态下的奖励来对当前状态的修正;
智能机器人在没有到达学习终点,即没有学习到目标的动作,就一直使用ε-greedy策略来一直迭代执行整个学习过程,一旦学习到达学习终点,式(II)不再迭代,学习过程结束;整个过程中,每次迭代的值都更新到智能机器人的记忆中即Q表中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海);威海天之卫网络空间安全科技有限公司,未经哈尔滨工业大学(威海);威海天之卫网络空间安全科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010722933.7/1.html,转载请声明来源钻瓜专利网。