[发明专利]基于紧致3D卷积的唇语识别方法、系统、设备及存储介质在审
申请号: | 202110664784.8 | 申请日: | 2021-06-16 |
公开(公告)号: | CN113313056A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 曾琪峰;杜俊 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 卷积 识别 方法 系统 设备 存储 介质 | ||
本发明公开了一种基于紧致3D卷积的唇语识别方法、系统、设备及存储介质,紧致3D卷积模块综合了异构卷积和逐通道卷积的优点减少了常规3D卷积的运算量和参数量,以直接替换3D卷积神经网络中的基础3D卷积模块应用到不同的任务中,替换后的3D卷积神经网络应用于唇语识别任务时,不仅能在不明显影响模型表现(即,保障了唇语识别效果)的情况下极大的减小运算量和参数量,同时能够通过调整参数来权衡模型复杂度和模型表现。
技术领域
本发明涉及唇语识别技术领域,尤其涉及一种基于紧致3D卷积的唇语识别方法、系统、设备及存储介质。
背景技术
卷积神经网络(convolutional neural networks)是一种有效的用于提取图像特征的技术,其中3D卷积神经网络是一种有效的提取视频输入的时间空间特征的方法。
然而相对于2D卷积而已,3D卷积神经网络带来大量的运算复杂度和存储空间的负担。使得难以基于3D卷积来构建深层神经网络,同时较大的限制了3D卷积在实际应用中的使用。这使得研究者们积极探索了对3D卷积神经网络的优化的压缩方式。
对于3D卷积神经网络的压缩的研究主要分布在两个方面:
一个是针对3D卷积模块的压缩:如文献1(D.Tran,H.Wang,L.Torresani,J.Ray,Y.LeCun,M.Paluri,“A closer look at spatiotemporal convolutions for actionrecognition,”In Internaltional Conference on Computer Vision and PatternRecogintion,2018.)、文献2(Z.Qiu,T.Yao,and T.Mei,“Learning spatio-temporalrepresentation with pseudo-3d residual networks,”In IEEEInternationalConference on Computer Vision,2017.)分别提出了两种类似的简约3D卷积结构。该研究通过将3D卷积拆分为时间部分的1D卷积和空间部分的2D卷积的组合,并根据组合方式的不同提出了不同的结构。这样的拆分方式较大的减少了运算量和参数量,但是这些简约3D结构有着局限性,固定的拆分方式让使用者不能自行根据需求调整简约3D模块的压缩率。
另一个压缩方法是剪枝:文献3(Z.Xu,T.Ajanthan,V.Vineet,and R.Hartley,“RANP:Resource aware neuron pruning at initialization for 3D CNNs,”InInternational Conference on 3D Vision,2020.)根据神经元的重要性来在初始化时对卷积神经进行剪枝,从而降低网络的复杂度和参数量。剪枝的方法需要使用者对任务有着较深的认识,并且对于不同的任务需要进行结构的调整,这些劣势限制了剪枝的应用。
目前3D卷积结构被广泛的应用在需要提出时间-空间特征的任务中,如唇语识别中视频特征的提取,在带来巨大的表现提升的同时带来了较大的运算和储存的负担。
发明内容
本发明的目的是提供一种基于紧致3D卷积的唇语识别方法、系统、设备及存储介质,可以在不导致明显表现损失的前提下大幅减少模型的运算量和参数量。
本发明的目的是通过以下技术方案实现的:
一种基于紧致3D卷积的唇语识别方法,包括:构建即插即用的紧致3D卷积模块,并替换用于唇语识别的卷积神经网络中的卷积结构,利用替换后的卷积神经网络从视频序列中进行唇语特征的提取,进而实现唇语识别;其中:
所述紧致3D卷积模块将输入的原始特征图的通道进行随机化,然后,将随机化后的一半通道的特征图进行逐通道卷积,另一半通道的特征进行逐点卷积,将两部分卷积的输出相加再与原始特征图进行逐点卷积后的特征图进行残差连接,作为紧致3D卷积模块输出的特征图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110664784.8/2.html,转载请声明来源钻瓜专利网。