[发明专利]一种基于强化学习的多模态人机交互方法有效
申请号: | 202110773626.6 | 申请日: | 2021-07-08 |
公开(公告)号: | CN113268143B | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 印二威;裴育;闫慧炯;谢良;艾勇保;罗治国;闫野 | 申请(专利权)人: | 中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心 |
主分类号: | G06F3/01 | 分类号: | G06F3/01;G06K9/62;G06N3/04 |
代理公司: | 北京丰浩知识产权代理事务所(普通合伙) 11781 | 代理人: | 李学康 |
地址: | 100071 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 多模态 人机交互 方法 | ||
针对传统人机交互方法中数据不匹配而带来的性能瓶颈问题,本发明公开了一种基于强化学习的多模态人机交互方法,包括以下步骤:采集用户数据,要求用户佩戴相应的可穿戴传感器,可穿戴传感器记录用户数据,所记录的数据构成训练集和测试集;在流式数据集上离线构建分类算法模型;应用所构建好的分类算法模型,进行人机交互。对于同步人机交互方法,根据指令同步标签对数据进行切分,将数据送入分类算法模型进行分类;对于异步人机交互方法,根据同步时间起点切割数据,将切割后的数据作为分类模型的输入样本。本发明直接从流式数据上开始构建模型,避免了传统人机交互方法开发过程繁杂、性能上限不高的问题,具有更好的稳定性。
技术领域
本发明涉及到人机交互和可穿戴传感器领域,是一种基于强化学习的人机交互方法。
背景技术
人机交互(Human-computer interaction,简称HCI)是研究人与计算机之间通过相互理解的交流与通信,在最大程度上为人们完成信息管理,服务和处理等功能,使计算机真正成为人们工作学习的和谐助手的一门技术科学。
近年来,随着集成电子技术的发展,电子传感器体积越来越小,功能越来越强。基于可穿戴传感器的人机交互方法逐渐得到应用。根据传感器捕捉的信息的类型,可将人机交互方法分为:手势、眼动等人机交互方法。基于手势识别的人机交互方法,需要用户佩戴一副包含运动传感器的数据手套,该数据手套可以实时采集用户的手部运动信息,通过计算机识别并推测用户的行为意图达到人机协同工作、人机交互的目的;基于眼动的人机交互方法,这种系统通过在额头附近放置一对高速微型摄像头,通过实时捕捉眼动图像来判断眼动信息,来达到人机交互目的。根据在线控制策略,可将人机交互方法分为同步人机交互方法和异步人机交互方法。同步与异步人机交互方法之间最大的区别在于,在线应用时,算法模型是否能够准确的获得每个动作的开始时间点。在同步人机交互方法中,用户需要特意跟随系统的节奏来发送指令,这样算法模型就能够准确识别每个动作的起始时间。然而异步人机交互方法要求能够对任意时间点开始动作识别出正确的结果,这种系统对对算法模型的要求就会很高。
在异步人机交互方法中,对于判断用户是否开始动作起始点的阈值,一般是难以设计的。如果需要进一步提高异步交互系统的性能的话,则需要设计一个在线动态决策方法,这已经超出了基于静态分类模型的框架。因此,现行人机交互有一个非常重要的缺点:在构建分类算法模型时使用的数据是分段的,而实际应用时数据是连续不断的流式数据。数据形态的差异导致了难以选择的起始点阈值和难以设计的在线动态策略的问题,这两个问题成为了制约现有人机交互方法的性能的技术瓶颈。为了突破这个技术瓶颈,需要直接从流式数据上构建识别模型,这样离线构建模型的阶段与在线应用的阶段模型面对的数据形态是一致的,有望进一步提高人机交互方法的性能。
强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。强化学习与连接主义学习中的监督学习的区别,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价,而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作,其强化信号通常为标量信号。在强化学习的领域中,有一个经典问题,‘倒立摆’问题。这个问题中,要求控制系统在每次观测到倒立摆的位置、速度、角度、角速度后,给出一个+10N或-10N的力,使倒立摆尽可能的达到平衡并不倾倒。在这个问题中,强化学习模型面对的就是连续不断的被观测到的流式数据,与人机交互方法中通过可穿戴传感器观测人体行为数据非常类似。强化学习非常适合于流式数据上的动态决策。所以本发明,将强化学习框架,引入到的人机交互方法的设计中,期望突破传统交互系统设计方法中段数据与流式数据不匹配而带来的性能瓶颈。
发明内容
针对传统交互系统设计方法中段数据与流式数据不匹配而带来的性能瓶颈问题,本发明公开了一种基于强化学习的多模态人机交互方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心,未经中国人民解放军军事科学院国防科技创新研究院;天津(滨海)人工智能军民融合创新中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110773626.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种融合肌电信号与视觉图像的手势识别方法
- 下一篇:一种隧道用矩形截割刀盘