[发明专利]基于多自注意力机制深度学习的医疗行为识别方法有效
申请号: | 202010363589.7 | 申请日: | 2020-04-30 |
公开(公告)号: | CN111652066B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 单光存;苏银沛;尹明;储冰峰;曾祥睿;屈晓磊;李鑫 | 申请(专利权)人: | 北京航空航天大学;中国人民解放军总医院;博恒科技(杭州)有限公司 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V40/20;G06V10/44;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京创赋致远知识产权代理有限公司 11972 | 代理人: | 邱晓宁 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 深度 学习 医疗 行为 识别 方法 | ||
1.一种基于多自注意力机制深度学习的医疗行为识别方法,其特征在于,包括以下步骤:
步骤1、读取视频,将视频分解为若干个单帧图像,然后将L个单帧图像进行堆叠,得到一个图像序列结构,同时为每个序列结构确定对应的动作分类标签;
步骤2、设计卷积神经网络,将序列中的单帧图像抽取出来作为视频单元,输入到该卷积神经网络中,通过多层计算得到视频单元的空间特征,维度为M;然后将一个序列中的L个视频单元特征进行堆叠,得到L×M的特征结构;
步骤3、设计循环神经网络结构,将步骤2中得到的L×M的特征结构作为单元,输入到该循环神经网络中捕捉时间维度上的特征,通过计算得到L×D维向量输出;
步骤4、设计多头自注意力模型,将步骤3中的得到的L×D维特征结构作为单元,输入到多头自注意力模型中,通过一系列计算得到L×D维的特征结构;然后通过平均池化和两层全连接层,最终得到N维向量输出;
步骤5、结合最终的N维向量输出和输入样本对应的标签,构建损失函数,通过最小化损失函数,训练卷积神经网络、循环神经网络和多头自注意力模型;
步骤6、得到效果最好的网络模型后,通过迁移学习将N分类模型学到的知识迁移到二分类模型上重新训练二分类模型;
步骤7、训练好最终的结合迁移学习的二分类模型后,用于医疗行为动作识别。
2.根据权利要求1所述的一种基于多自注意力机制深度学习的医疗行为识别方法,其特征在于:
所述步骤1中序列结构的获取方法如下:
在原始视频数据中每X帧读取一次图像,作为一个视频单元;将L个视频单元在时间维度上进行堆叠,得到许多能完整呈现一个动作的大小为L×C×H×W的序列结构,其中C代表图像的通道数,H代表图像的高度,W代表图像的宽度,L代表时间轴上的长度,也就是视频单元的个数;同时,为每个序列结构确定对应的动作分类标签。
3.根据权利要求1所述的一种基于多自注意力机制深度学习的医疗行为识别方法,其特征在于:
所述步骤2设计的卷积神经网络结构为:
卷积神经网络的整体结构由Resnet和最后的数层全连接层构成;其中经过预训练Resnet用于提取图像的空间特征信息,通过152层卷积操作,得到多个特征图;再经过两层全连接层,每层之后使用BatchNorm方法,以及线性整流函数ReLU进行非线性变换,并使用Dropout方法,得到初步的特征向量;再经过一层维度为M的全连接层,得到M维的特征向量;然后将L个视频单元特征进行堆叠,得到L×M的特征结构。
4.根据权利要求1所述的一种基于多自注意力机制深度学习的医疗行为识别方法,其特征在于:
所述步骤3所设计的循环神经网络结构为:
循环网络的基本单元为LSTM,单元节点数为L,隐藏状态的维度为D;取所有的L个隐藏单元的状态作为输出,得到维度为L×D的特征结构F。
5.根据权利要求1所述的一种基于多自注意力机制深度学习的医疗行为识别方法,其特征在于:
所述步骤4所设计的多头自注意力模型结构为:
设定注意力头的个数为H;对于每一个注意力头,设计三个权重矩阵Wq,Wk,Wv,维度均为D×d,其中将步骤3中得到的L×D的特征结构F分别与上述三个权重矩阵相乘,得到三个特征向量分别为Q、K、V,维度均为L×d;然后计算注意力头,公式如下:
上式中,Q、K、V为步骤4中得到的特征向量,d为特征向量的第二个维度大小,Ai代表第i个注意力头,维度为L×d,T为转置符号,Softmax为多元逻辑回归函数。
6.根据权利要求4所述的一种基于多自注意力机制深度学习的医疗行为识别方法,其特征在于:
将所有的注意力头在第二个维度上拼接起来,得到维度为L×D的多头注意力矩阵A;再计算最终的特征矩阵F′,公式如下:
F′=WA+F
上式中,W为维度为D×D的权重矩阵,A为步骤4中得到的多头注意力矩阵,F为步骤3中得到的特征结构,F′为得到的维度为L×D的特征矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学;中国人民解放军总医院;博恒科技(杭州)有限公司,未经北京航空航天大学;中国人民解放军总医院;博恒科技(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010363589.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种污泥中磷的释放和回收方法
- 下一篇:一种永磁电机的转子结构