[发明专利]一种适于复杂场景的多人服装特征视频识别方法在审
申请号: | 202210481470.9 | 申请日: | 2022-05-05 |
公开(公告)号: | CN114821477A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 阮雅端;赵冉;徐沁心;邓强强;陈启美 | 申请(专利权)人: | 南京大学 |
主分类号: | G06V20/52 | 分类号: | G06V20/52;G06V20/40;G06V40/10;G06V10/56;G06V10/42;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 奚铭 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 适于 复杂 场景 服装 特征 视频 识别 方法 | ||
1.一种适于复杂场景的多人服装特征视频识别方法,其特征是包括以下步骤:
step1:构建行人数据集,标注行人框、行人关键点、以及行人服装特征,包括行人上下衣长度、颜色;
step2:使用融入了改进的SE模块的InceptionV4作为SSD的骨干网络,搭建行人检测网络;
step3:使用行人数据集训练step2中的行人检测网络;
step4:使用去掉RefinelNet部分的CPN网络搭建关键点检测网络;
step5:使用行人数据集训练关键点检测网络;
step6:以ResNet50网络为基础搭建服装特征识别网络,其中颜色识别根据图片HSV空间的取值判断;
step7:读取行人服装特征数据集,训练服装特征识别网络;
step8:训练完成后级联各网络,得到多人服装特征视频识别检测网络,对于输入的视频或图片,行人检测网络输出行人检测框坐标,关键点检测网络读取行人检测框坐标后输出关键点坐标,服装特征识别网络读取关键点坐标后输出服装的长度、颜色。
2.根据权利要求1所述的适于复杂场景的多人服装特征视频识别方法,其特征是步骤step2检测网络具体为:
以InceptionV4网络为基础,构建融入改进的SE模块的InceptionV4网络,称为SE-InceptionV4网络,InceptionV4网络包含stem模块、Inception-A模块组、Inception-B模块组、Inception-C模块组、Reduction-A模块和Reduction-B模块,将Inception-A模块组输出的特征图编号为A1,Inception-B模块组输出的特征图编号为B1,Inception-C模块组输出的特征图编号为C1,SE-InceptionV4网络在Inception-A模块组、Inception-B模块组和Inception-C模块组后融入改进的SE模块,改进的SE模块依次包括Max poling层、Globalpoling层、全连接层、ReLu激活层、全连接层和Sigmoid激活层,Max poling层所选取的大小根据通道注意力模块所添加的位置不同而不同,具体如下:
对于Inception-A模块组,添加改进的SE模块分支A,具体为依次添加3*3Max poling层、Global poling层、1*1*24的全连接层、ReLu激活层、1*1*384全连接层及Sigmoid激活层,编号为A1的特征图经过分支A后得到1*1*384的特征图,编号为A2,将编号为A1的特征图各通道的特征值乘上编号为A2的特征图对应通道的特征值后,再送入Inception-A模块组的后续卷积层;
对于Inception-B模块组,添加改进的SE模块分支B,具体为依次添加2*2Max poling层、Global poling层、1*1*64的全连接层、ReLu激活层、1*1*1024全连接层及Sigmoid激活层,编号为B1的特征图经过分支B后得到1*1*1024的特征图,编号为B2,将编号为B1的特征图各通道的特征值乘上编号为B2的特征图对应通道的特征值后,再送入Inception-B模块组的后续卷积层;
对于Inception-C模块组,添加SE模块分支,具体为依次添加Global poling层、1*1*96的全连接层、ReLu激活层、1*1*1536全连接层及Sigmoid激活层,编号为C1的特征图经过SE模块分支后得到1*1*1536的特征图,编号为C2,将编号为C1的特征图各通道的特征值乘上编号为C2的特征图对应通道的特征值后,再送入Inception-C模块组的后续卷积层;
采用SE-InceptionV4网络为特征提取网络,作为SSD的骨干网络;将融合SE模块后的特征图A1×A2,B1×B2,C1×C2,与SSD网络conv9,conv10,conv11生成的特征图一起输出到SSD的预测网络,输出预测结果,得到检测框坐标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210481470.9/1.html,转载请声明来源钻瓜专利网。