[发明专利]一种基于多模态强化学习的人机协同框架有效

申请号：	202210700832.9	申请日：	2022-06-21
公开（公告）号：	CN114781652B	公开（公告）日：	2022-10-14
发明（设计）人：	冯志全;蔡泽源	申请（专利权）人：	济南大学
主分类号：	G06N20/00	分类号：	G06N20/00;G06N3/00;G06K9/62
代理公司：	北京中索知识产权代理有限公司 11640	代理人：	邹长斌
地址：	250022 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多模态强化学习人机协同框架
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于多模态强化学习的人机协同框架，涉及人机协同技术领域，包括多模态强化学习意图理解模块和任务分配模块，所述的多模态强化学习意图理解模块中机器人通过收集用户的三种模态的特征通过强化学习在反复的迭代中学习用户的行为习惯，进而消除由于不同用户的行为习惯差异而产生的误差，实现对用户的更加鲁棒的意图理解，所述的任务分配模块根据用户的行为获取用户的意图之后指定机器人的动作序列。本发明消除了用户个体之间习惯的差异性而导致的协作效果偏差的问题，具有用户感知实时性好、适应性强的有益效果。

技术领域

本发明涉及人机协同技术领域，具体是指一种基于多模态强化学习的人机协同框架。

背景技术

协作型机器人作为一种新型的工业机器人，扫除了人机协作的障碍，让机器人彻底摆脱护栏或围笼的束缚，其开创性的产品性能和广泛的应用领域，为工业机器人的发展开启了新时代。

协作机器人应用场景比较广并且在各行各业都能够发挥出其相应的优势，因此想要选择这种具有良好优势的协作机器人还应该现场实地考察其感知能力和人机协作能力。

作机器人的感知能力是指感知周边环境并且能够根据周边的环境准确做出相应的动作行为，而现有的人机协作框架主要使用一个统一的范式观察用户特征实现意图理解进而人机协同，这种范式使用了固定的范式需要用户去适应机器人，很明显这种范式对用户不友好，如果能有一种协作框架能够去适应每一位用户的行为习惯，将使得机器人在面对不用习惯的用户时仍然可以保持高效的协同。

发明内容

本发明针对现有技术的不足，提供了一种旨在消除用户个体之间习惯的差异性而导致的协作效果偏差的基于多模态强化学习的人机协同框架。

本发明是通过如下技术方案实现的，提供一种基于多模态强化学习的人机协同框架，包括多模态强化学习意图理解模块和任务分配模块，所述的多模态强化学习意图理解模块中机器人通过收集用户的三种模态的特征通过强化学习在反复的迭代中学习用户的行为习惯，进而消除由于不同用户的行为习惯差异而产生的误差，实现对用户的更加鲁棒的意图理解，包括以下三个阶段：

（一）用户多模态特征的提取，传感器得到的数据会先经过三个子分类器得到分类结果m₁、m₂、m₃，最终的用户特征s=[m₁,m₂,m₃]；

（二）将提取到的用户特征s分类结果作为状态输入拟合出每一种意图结果下的得分v；

（三）根据优化目标通过公式（1）计算用户意图I所对应的最优操作，再使用NLP技术分析用户的语言反馈，得到用户满意度S_a，将S_a作为奖励的一部分进行迭代学习；

（1）

s_t为t时刻用户的特征，为t时刻最佳意图，为q_eval神经网络的参数；

所述的任务分配模块根据用户的行为获取用户的意图之后指定机器人的动作序列。

作为优选，所述第1阶段中用户多模态特征的提取采用三种传感器来实现用户包括语音、体势和手势三种模态的输入。

作为优选，所述第3阶段中，使用snownlp模块对麦克风收集到的语音反馈进行语音情感分析，NLP的结果在0到1之间，设置公式（2）作为奖励函数得出奖励值，

（2）

其中，1表示语音反馈是正面的或未做反馈，0表示语音反馈是负面的。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载