[发明专利]一种通过强化学习训练书法机器人的方法在审
申请号: | 202110585275.6 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113326876A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 冯伟;周昭坤;刘笑 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/68;G06N3/04;G06N3/08;B25J9/16 |
代理公司: | 北京市诚辉律师事务所 11430 | 代理人: | 耿慧敏;朱伟军 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通过 强化 学习 训练 书法 机器人 方法 | ||
1.一种通过强化学习训练书法机器人的方法,包括以下步骤:
获取目标书法作品图片,并输入到卷积神经网络进行特征提取,获得图像预处理结果;
构建深度强化学习模型,该深度强化学习模型的智能体输出用于控制机器人书写的指令,环境的状态观测量是图像预处理结果;
智能体根据输入的状态观测量和奖赏,通过随机梯度下降进行训练,其中奖赏反映机器人书法作品和目标书法作品之间的匹配程度,并且训练过程中,机器人书写的书法作品也作为环境的状态观测量。
2.根据权利要求1所述的方法,其中,所述深度强化学习模型的训练过程包括:
随机初始化构成智能体的神经网络的权重和偏差;
在机器人第一次完成书法字后,将机器人创作的书法字和目标书法作品的对应书法字进行比较,得到代表机器人书法作品艺术价值的分数值,并将该分数值作为奖赏输入到智能体;
经过多次迭代,直到机器人书写的书法作品与目标书法作品图片之间的匹配程度达到预设的目标值。
3.根据权利要求1所述的方法,其中,在书写过程中,机器人的机械臂上设置的压力传感器、加速度传感器产生的测量数据作为状态观测量反馈到智能体,以建立机器人的机械臂发出的运动指令和机械臂运动之间的联系。
4.根据权利要求2所述的方法,其中,所述分数值利用孪生神经网络获得,该孪生神经网络的输入分别是机器人书写的书法作品和目标书法作品。
5.根据权利要求2所述的方法,其中,所述分数值根据机器人书写的书法作品和目标书法作品所有相对应像素值的平方差的平均值获得。
6.根据权利要求1所述的方法,其中,所述卷积神经网络是VGG-16,将该卷积神经网络靠近输出层的全连接层的输出作为图像预处理结果。
7.根据权利要求1所述的方法,其中,所述目标书法作品图片通过机器人上设置的摄像机拍摄或经由网络下载获得。
8.根据权利要求1所述的方法,其中,所述卷积神经网络提取的特征包括笔画特征、轮廓特征、骨架特征和像素特征中的一项或多项。
9.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110585275.6/1.html,转载请声明来源钻瓜专利网。