[发明专利]一种基于强化学习的Windows窗体应用程序自学习智能机器人及其工作方法在审

申请号：	202010722933.7	申请日：	2020-07-24
公开（公告）号：	CN111882062A	公开（公告）日：	2020-11-03
发明（设计）人：	张旭;刘扬;辛国栋;刘红日;孙云霄;王孝鹏	申请（专利权）人：	哈尔滨工业大学（威海）;威海天之卫网络空间安全科技有限公司
主分类号：	G06N3/08	分类号：	G06N3/08;G06F11/36
代理公司：	济南金迪知识产权代理有限公司 37219	代理人：	许德山
地址：	264209 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习 windows 窗体应用程序自学习智能机器人及其工作方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的Windows窗体应用程序自学习智能机器人，其特征在于，包括学习任务下发模块、学习任务解析模块、自学习模块、知识库构建模块；

所述学习任务下发模块用于下发任务配置文件；所述任务配置文件包括需要进行学习的目标软件名称、目标软件中的按钮集合及目标软件的安装路径；所述学习任务解析模块用于接收到任务配置文件，分别对需要进行学习的目标软件名称、目标软件中的按钮集合及目标软件的安装路径进行解析，将解析后的信息作为自学习模块的参数；所述自学习模块用于接收解析后的信息并选取学习策略后对目标软件进行自学习；所述知识库构建模块用于存储所述自学习模块自学习后获取的知识。

2.根据权利要求1所述的一种基于强化学习的Windows窗体应用程序自学习智能机器人，其特征在于，所述任务配置文件的文本格式包括.csv、.txt、.ison、.inf。

3.权利要求1或2所述的Windows窗体应用程序自学习智能机器人的工作方法，其特征在于，包括步骤如下：

(1)所述学习任务下发模块下发任务配置文件；

(2)所述学习任务解析模块接收到所述学习任务下发模块下发的任务配置文件，分别对需要进行学习的目标软件名称、目标软件中的按钮集合及目标软件的安装路径进行解析，将解析后的信息作为自学习模块的参数；解析后的信息是指配置文件信息按照计算机内部文件编码规则转换成计算机识别的机器码；

(3)所述自学习模块接收解析后的信息并选取学习策略后对目标软件进行自学习，并自学习后获取的知识存储在所述自学习模块中。

4.根据权利要求3所述的Windows窗体应用程序自学习智能机器人的工作方法，其特征在于，步骤(3)中，接收解析后的信息并选取学习策略，是指：对于小型软件，选用Off-policy学习策略中Q-learning算法的学习策略；对于大型软件，选用On-policy学习策略中SARSA算法的学习策略。

5.根据权利要求3所述的Windows窗体应用程序自学习智能机器人的工作方法，其特征在于，步骤(3)中，通过Off-policy学习策略中Q-learning算法对目标软件进行自学习，包括步骤如下：

A、Q表初始化：在自学习开始之前，Q表中状态对应的值使用q值表示，q值全为0；

最终目标动作操作的奖励r是20，其它每一次动作操作的奖励r_t为-1；

自学习模块在进行目软件探索和学习的时候，根据记忆和下一次的动作来不断地更新记忆，Q表来进行记忆的存储和更新；

q值表示状态价值函数Q(S，A)的值；

B、状态s_t下，t时刻智能机器人实施一个动作a_t，观察奖励r_t，进入新的状态s_t+1，进行Q表的迭代更新，如式(I)所示：

Q^new(s_t，a_t)←Q(s_t，a_t)+α·[r_t+γ·max Q(s_t+1，a_t)-Q(s_t，a_t)] (I)

式(I)中，在学习过程中，实施动作之后，对于状态s_t和动作a_t给定的q值Q(s_t，a_t)被新值Q^new(s_t，a_t)所迭代更新，Q^new(s_t，a_t)包括两部分组成，α为学习率，α的取值范围为[0，1]，r_t表示在t时刻执行动作a_t的奖励，γ表示折扣因子，γ的取值范围为[0，1]，maxQ(s_t+1，a_t)是指智能机器人在选择未来的动作和状态所产生的q值；

智能机器人不断使用ε-greedy策略来选取对自己奖励最大的未来动作，ε-greedy策略如式(II)所示：

r_t+γ·max Q(s_t+1，a_t) (II)

式(II)中，r_t+γ·max Q(s_t+1，a_t)是现实中智能机器人在选择未来的动作和状态所产生的q值，式(II)是迭代公式，而r_t+γ·max Q(s_t+1，a_t)-Q(s_t，a_t)是现实与估计值的差距，整个迭代的过程就是根据未来状态下的奖励来对当前状态的修正；

智能机器人在没有到达学习终点，即没有学习到目标的动作，就一直使用ε-greedy策略来一直迭代执行整个学习过程，一旦学习到达学习终点，式(II)不再迭代，学习过程结束；整个过程中，每次迭代的值都更新到智能机器人的记忆中即Q表中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学（威海）;威海天之卫网络空间安全科技有限公司，未经哈尔滨工业大学（威海）;威海天之卫网络空间安全科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010722933.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种铺帘工装结构及操作方法
下一篇：一种Windows窗体应用程序行为模拟机器人及其工作方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的Windows窗体应用程序自学习智能机器人及其工作方法在审

专利文献下载