[发明专利]连续手语识别分词方法及装置在审
申请号: | 202310684457.8 | 申请日: | 2023-06-11 |
公开(公告)号: | CN116665304A | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 孙悦;薛万利;刘敬泽;康泽;刘清华;郭乐铭 | 申请(专利权)人: | 天津理工大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06F40/289;G06V10/82;G06N3/0464;G06N3/08;G06V20/40 |
代理公司: | 北京万津知识产权代理事务所(普通合伙) 16224 | 代理人: | 于建国 |
地址: | 300384 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 连续 手语 识别 分词 方法 装置 | ||
本发明提供了一种手语识别分词方法及装置,涉及人工智能的技术领域,应用于连续手语识别分词系统,连续手语识别分词系统包括文本提取模型以及并行多尺度视觉特征特提取模型,具体包括如下步骤:将连续手语识别数据集输入至文本提取模型提取连续手语识别数据集中的手语单词文本特征;利用连续手语识别数据集确定手语识别数据视频,将手语识别数据视频输入至所述并行多尺度视觉特征特提取模型,以对所述手语识别数据视频按照不同的时间跨度进行分割,提取多尺度手语视觉特征;利用所述手语单词文本特征以及所述多尺度手语视觉特征对所述连续手语识别分词系统进行训练,通过本申请可以精细地去刻画每一种时序长度的手语动作,对手语识别精细分词。
技术领域
本发明涉及人智能的技术领域,尤其是涉及一种连续手语识别分词方法及装置。
背景技术
手语是一门视觉语言,作为听障人群的主要日常交流方式,手语通过手部和身体其他部位的运动,包括:手势变化及其运动轨迹、面部及口部表情变化、头部及身体动作幅度变化等方式,协作进行信息传达。手语拥有与自然口语不同的语法结构和表达方式,使得听障人士与健听人在日常生活中难以有效交流。作为人工智能促进听障人群与健听人群无障碍交流的核心研究,连续手语识别(continuous sign language recognition,CSLR)利用计算机视觉及自然语言处理技术,将一段手语视频中对应的多个手语单词连续逐一识别出来。
为了有效捕捉手语动作,模型需要搭建有效的时序感受野提取时序特征,现有技术采用如下手段:1)采用二维卷积神经网络2D CNN(convolutional neural networks,CNN)与长短期记忆网络(long short-termmemory,LSTM)相结合的方式,或者采用三维卷积神经网络3D CNN与扩张卷积模型(dilated model)结合的方式更为有效地增大视觉特征提取网络的时序感受野,仅注重手语中长时视觉信息提取。2)因为较多数手语动作并不属于长时间演示的动作,因此采用二维卷积神经网络2D CNN(convolutional neuralnetworks,CNN)与时序卷积神经网络(temporal convolutional neural networks,1D-TCN)相结合的方式,搭建短时时序感受野,仅注重较多数短时手语动作的视觉信息提取。3)为了更加全面地捕捉手语动作,许多方法采用二维卷积神经网络2D CNN(convolutionalneural networks,CNN)与时序卷积神经网络(temporal convolutional neuralnetworks,1D-TCN)和长短期记忆网络(long short-term memory,LSTM)相结合的方式,旨在搭建长-短时时序感受野,能够同时实现长时、短时手语动作的视觉信息提取。4)采用CTC最大化视频帧与句子中手语单词之间所有可行对齐路径的概率和,以此获得每一视频帧的概率标签,从而能够以全监督的方式端到端地训练模型。
尽管目前的方法采用搭建长短时时序感受野相结合的方式提取手语动作的视觉信息,但是他们搭建的时序感受野是固定的,导致提取结果是局限在两种感受野之内的,并不能精细地去刻画每一种时序长度的手语动作,因此他们面临难以有效捕捉任意时序长度手语动作的问题。此外,由于多数手语动作的外观和运动轨迹很相似,仅通过使用CTC训练模型也面临着相似手语动作的概率标签不准确的问题,导致难以有效捕捉多种时序长度手语动作。
发明内容
有鉴于此,本发明的目的在于提供连续手语识别分词方法及装置,以精细地去刻画每一种时序长度的手语动作,对手语动作精细分词。
本申请提供了一种连续手语识别分词方法,应用于连续手语识别分词系统,所述连续手语识别分词系统包括文本提取模型以及并行多尺度视觉特征特提取模型,具体包括如下步骤:
将连续手语识别数据集输入至文本提取模型提取连续手语识别数据集中的手语单词文本特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津理工大学,未经天津理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310684457.8/2.html,转载请声明来源钻瓜专利网。