[发明专利]一种基于强化学习的视频连续手语识别方法及系统在审
申请号: | 201910738365.7 | 申请日: | 2019-08-09 |
公开(公告)号: | CN112347826A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 李厚强;周文罡;魏承承;赵鉴 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 古利兰 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 视频 连续 手语 识别 方法 系统 | ||
1.一种基于强化学习的视频连续手语识别方法,其特征在于,包括:
获取原始手语视频;
将获取的所述原始手语视频切分为多个视频段;
基于残差连接的三维卷积神经网络对各个视频段进行时空域特征提取;
对提取到的所述时空域特征利用双向长短时记忆网络进行上下文学习,得到手语视频的特征;
基于多尺度感知网络对手语视频进行不同感受野下的再表达,以最小化联结主义时间分类损失为目标将网络训练至收敛后,将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存;
基于保存的所述视频特征,利用强化学习算法训练得到的边界检测器根据定义的状态确定出视频段的语义边界;
将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征;
基于进一步提取到的所述特征进行手语词汇的识别。
2.根据权利要求1所述的方法,其特征在于,还包括:
计算识别出的手语句子和真实句子之间的距离,取距离值的相反数作为所述边界检测器的奖励函数。
3.根据权利要求1所述的方法,其特征在于,所述基于保存的所述视频特征,利用强化学习算法训练得到的边界检测器根据定义的状态确定出视频段的语义边界,包括:
基于所述视频特征,以滑窗的形式确定当前观测到的状态,边界检测器根据当前状态确定出窗口内的语义边界,滑窗在视频上滑动,依次确定出整个手语视频中的语义边界。
4.一种基于强化学习的视频连续手语识别系统,其特征在于,包括:
获取模块,用于获取原始手语视频;
切分模块,用于将获取的所述原始手语视频切分为多个视频段;
残差连接的三维卷积神经网络模块,用于对各个视频段进行时空域特征提取;
双向长短时记忆网络模块,用于对提取到的所述时空域特征进行上下文学习,得到手语视频的特征;
多尺度感知网络模块,用于对手语视频进行不同感受野下的再表达,以最小化联结主义时间分类损失为目标将网络训练至收敛后,将残差连接的三维卷积神经网络和双向长短时记忆网络提取的视频特征保存;
边界检测器,用于基于保存的所述视频特征,根据定义的状态确定出视频段的语义边界,其中,所述边界检测器利用强化学习算法训练得到;
特征提取模块,用于将两两边界之间语义一致的若干个视频段以池化的方式进一步提取特征;
识别模块,用于基于进一步提取到的所述特征进行手语词汇的识别。
5.根据权利要求4所述的系统,其特征在于,还包括:
计算模块,用于计算识别出的手语句子和真实句子之间的距离,取距离值的相反数作为所述边界检测器的奖励函数。
6.根据权利要求4所述的系统,其特征在于,所述边界检测器在执行基于保存的所述视频特征,根据定义的状态确定出视频段的语义边界时,具体用于:
基于所述视频特征,以滑窗的形式确定当前观测到的状态,根据当前状态确定出窗口内语义边界,滑窗在视频上滑动,依次确定出整个手语视频中的语义边界。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910738365.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种院线级汽车影院扬声器布局方案
- 下一篇:磁控管调谐机构和磁控管组件