[发明专利]基于紧致3D卷积的唇语识别方法、系统、设备及存储介质在审
申请号: | 202110664784.8 | 申请日: | 2021-06-16 |
公开(公告)号: | CN113313056A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 曾琪峰;杜俊 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 识别 方法 系统 设备 存储 介质 | ||
1.一种基于紧致3D卷积的唇语识别方法,其特征在于,包括:构建即插即用的紧致3D卷积模块,并替换用于唇语识别的卷积神经网络中的卷积结构,利用替换后的卷积神经网络从视频序列中进行唇语特征的提取,进而实现唇语识别;其中:
所述紧致3D卷积模块将输入的原始特征图的通道进行随机化,然后,将随机化后的一半通道的特征图进行逐通道卷积,另一半通道的特征进行逐点卷积,将两部分卷积的输出相加再与原始特征图进行逐点卷积后的特征图进行残差连接,作为紧致3D卷积模块输出的特征图。
2.根据权利要求1所述的一种基于紧致3D卷积的唇语识别方法,其特征在于,逐点卷积时,使用卷积核大小为1*1*1的3D卷积。
3.根据权利要求1所述的一种基于紧致3D卷积的唇语识别方法,其特征在于,所述逐通道卷积包括:一次逐通道卷积操作与两次逐点卷积操作;
首先,输入特征图先经过一个将特征图变化ω倍的逐点卷积操作,来控制卷积的复杂度;然后,经过一个逐通道卷积操作来提取时间-空间的相关性特征;最后,再经过一个逐点卷积操作将特征图维度转变为需要的输出特征图数。
4.一种基于紧致3D卷积的唇语识别系统,其特征在于,用于实现权利要求1~3任一项所述的方法,该系统包括:
模块构建单元,用于构建即插即用的紧致3D卷积模块;其中:所述紧致3D卷积模块将输入的原始特征图的通道进行随机化,然后,将随机化后的一半通道的特征图进行逐通道卷积,另一半通道的特征进行逐点卷积,将两部分卷积的输出相加再与原始特征图进行逐点卷积后的特征图进行残差连接,作为紧致3D卷积模块输出的特征图;
网络构建单元,用于利用紧致3D卷积模块替换用于唇语识别的卷积神经网络中的卷积结构;
特征提取与唇语识别单元,用于利用替换后的卷积神经网络从视频序列中进行唇语特征的提取,进而实现唇语识别。
5.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~3任一项所述的方法。
6.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~3任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110664784.8/1.html,转载请声明来源钻瓜专利网。