[发明专利]一种基于事件相机的多粒度时空特征感知的唇读方法在审
申请号: | 202210484754.3 | 申请日: | 2022-05-06 |
公开(公告)号: | CN114882590A | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 查正军;曹洋;王洋;吴枫;谭赣超 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 事件 相机 粒度 时空 特征 感知 方法 | ||
1.一种基于事件相机的多粒度时空特征感知的唇读方法,其特征在于,包括如下步骤:
步骤一、基于事件相机的唇读数据收集和预处理:
利用事件相机采集唇读数据,并将所述唇读数据分割为单词级别的样本,将每个样本的空间分辨率裁剪为H×W的维度,H和W分别为高度和宽度;令第i个样本包含的异步事件流为其中,xik,yik,tik,pik分别表示第i个样本中第k个事件的横坐标、纵坐标、产生的时间戳和极性,ni表示第i个样本包含的事件总数;对第i个样本重复拍摄多次,并将拍摄到的所有样本记为单词集合wi;且单词集合wi中的单词属于单词表;令单词表中包含的单词总数为V;令mv表示所述单词表中任意一个单词的序号;从而构建基于事件相机的唇读数据集其中,N表示数据集的样本数量;
步骤二、将异步事件流信号转换成多时间分辨率的事件帧:
将第i个样本中的异步事件流Ei中的时间戳tik缩放到[0,T-1]范围内,再利用式(1)将所述异步事件流Ei转换成同步事件帧Vi:
式(1)中,t∈{0,1,...,T-1}表示第t个事件帧,T表示转换之后的事件帧数,y∈{0,1,...,H-1}表示同步事件帧Vi的像素纵坐标,x∈{0,1,...,W-1}表示同步事件帧Vi的像素横坐标,表示第i个样本中的第k个事件进行时间缩放之后的时间戳,并由式(2)得到:
式(2)中,ti1表示第i个样本的第一个事件的时间戳,表示第i个样本最后一个事件的时间戳,通过选取不同的T,得到两种不同的时间分辨率{Thigh,Tlow},其中,Thigh表示高时间分辨率,Tlow表示低时间分辨率;从而将第i个样本的异步事件流Ei转换成两个事件帧序列并作为一个事件样本,其中,表示高时间分辨率事件帧序列,表示低时间分辨率事件帧序列;进而由N个样本的异步事件转换成两个事件帧序列构成训练数据集;
步骤三、多粒度时空特征感知:
步骤3.1、每次从所述训练数据集中选取b个事件样本,分别转换成多分辨率事件帧之后得到一个批处理数据其中,表示批处理数据中第j个事件样本对应的高时间分辨率事件帧序列,表示批处理数据中第j个事件样本对应的低时间分辨率事件帧序列,wj表示批处理数据中第j个事件样本对应的单词类别;
步骤3.2、构建双流网络提取细粒度时空特征;
所述双流网络包含一个低时间分辨率分支、一个高时间分辨率分支以及一个信息流动模块;
所述低时间分辨率分支和高时间分辨率分支均是由一层卷积核为n1×n2×n2的3D卷积层和一个ResNet-18深度学习网络构成;
所述ResNet-18深度学习网络包括4个各阶段,每个阶段包含2个残差块,每个残差块均由两层卷积核为n3×n3的卷积层组成;
令低时间分辨率分支中卷积的通道数为高时间分辨率分支中卷积的通道数的n倍;
在所述ResNet-18的每个阶段之后级联一个信息流动模块;每个信息流动模块由一层卷积核为n4×1×1的卷积层、一层卷积核为n3×n3的卷积层、一个注意力计算模块组成;
所述注意力计算模块包含一个局部注意力计算模块和一个全局注意力计算模块;
所述局部注意力计算模块由两层卷积核为n3×n3的卷积层组成,全局注意力计算模块由一个平均池化模块和两层卷积核为n3×n3的卷积层组成,将全局计算注意力和局部计算注意力的输出结构相加后再经过一个Sigmoid函数并得到最终的注意力图;
步骤3.3、将所述批处理数据输入所述双流网络中,其中,低时间分辨率事件帧序列输入到低时间分辨率分支,高时间分辨率事件帧序列输入到高时间分辨率分支;并在经过ResNet-18的每个阶段之后通过信息流动模块进行特征融合,高时间分辨率的特征先通过一层卷积核为n4×1×1的卷积层进行降维,得到降维之后的高时间分辨率特征再与低时间分辨率的特征进行拼接,得到的拼接特征并经过一层卷积核为n3×n3的卷积层后得到初步融合的特征,所述初步融合的特征输入所述注意力计算模块进行计算后得到注意力图,将所述注意力图与所述初步融合的特征进行逐元素相乘之后再与所述低时间分辨率的特征相加,得到的结果再与所述降维之后的高时间分辨率特征拼接作为最终的融合特征;最终的融合特征作为低时间分辨率分支下一阶段的输入,高时间分辨率分支当前阶段的输出特征作为下一阶段的输入特征,从而由所述双流网络输出细粒度时空特征为其中Co表示输出特征的维度;
步骤四、序列模型:
步骤4.1、构建时空特征序列解码网络;
所述时空特征序列解码网络由3层双向GRU网络、一个平均池化层、一个全连接层、一个Softmax函数组成;
步骤4.2、将双流网络提取到的细粒度时空特征输入所述时空特征序列解码网络,并输出b个事件样本所对应的单词的概率其中,Pj表示第j个样本对应输出概率,且表示批处理数据中第j个事件样本被分类为第mv个单词的概率;
步骤五、网络训练:
基于梯度下降法对所述双流网络进行训练,并计算如式(3)所示的损失函数L,用于更新网络参数,直到网络的损失达到收敛为止,从而得到最优识别精度的唇读网络:
式(3)中,表示第j个事件样本被预测为正确标签的概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210484754.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种秸秆粉碎成型机
- 下一篇:用于油水分离的纳米纤维气凝胶的制备方法