[发明专利]一种基于Transformer的社交关系识别方法在审
申请号: | 202111116796.3 | 申请日: | 2021-09-23 |
公开(公告)号: | CN115858943A | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 卿粼波;王昱晨;王正勇;何小海;滕奇志;陈洪刚;任超 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06Q50/00;G06F18/241;G06N3/0464;G06N3/08;G06N5/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 transformer 社交 关系 识别 方法 | ||
1.一种基于Transformer的社交关系识别方法,其特征在于:
a.通过全连接网络、Vision Transformer网络以及卷积神经网络提取与社交关系识别相关联的人物特征与场景特征;
b.引入Transformer编码器网络推理各个人物特征之间的内在联系,并通过引入一个残差嵌入块传递人物特征信息;
c.构建非欧式空间的社交关系-场景图,并通过图神经网络推理社交关系之间、场景与社交关系之间的联系;
d.将全局人物特征信息以全连接的方式与图推理后的社交关系信息融合,提高对于人物特征信息的关注;
该方法主要包括以下步骤:
(1)数据处理与增强:对作为输入的两个人物的边界框区域和一个人物对联合区域统一裁剪为224×224的尺寸,对整张图片裁剪为448×448的尺寸,并对裁剪后的图片做归一化和随机水平翻转;另外,将两个人物的边界框的位置信息和面积信息归一化后作为一路输入;
(2)特征提取:通过所述结点生成模型中的一层全连接层、两个权重共享且预训练的Vision Transformer网络、一个参数独立且预训练的Vision Transformer网络、一个预训练的ResNet-50网络依次提取人物对的相对位置特征、人物对中每一个人的特征、人物对共同区域的特征以及整幅图的场景特征;需要说明的是,由于场景特征提取相对而言较为简单,且有针对ResNet-50网络的场景识别模型,因而采用ResNet-50作为场景信息提取的网络;
(3)人物特征推理:通过Transformer编码器网络对所述特征提取模块中的四个人物特征进行推理,挖掘四个人物特征间的内在联系;另外,引入一个可学习的残差嵌入块,利用多头自注意力机制,提取并传递Transformer编码器推理过的全局人物特征信息至分类层;需要注意的是,该网络的输出为一个残差嵌入块和四个新特征块;
(4)结点生成:对所述人物特征推理模块推理过的人物对的相对位置特征、人物对中每一个人的特征以及人物对共同区域的特征,用一层全连接层进行融合以形成社交关系结点,用ResNet-50网络提取到的场景特征作为场景结点;需要说明的是,一张RGB图像中每两个人形成一个社交关系结点,但只存在一个场景结点;
(5)图构建与推理:以全连接的方式连接步骤(4)生成的社交关系结点和场景结点来构建引入场景的社交关系图,并通过门控图神经网络对图进行推理,同时挖掘出社交关系之间、社交关系与场景之间的联系;
(6)社交关系分类:移除场景结点,将步骤(3)中的残差嵌入块、步骤(5)中图构建与推理后的社交关系节点,通过全连接的方式融合以提高对于人物对特征信息的关注,增加社交关系识别的合理性;另外,通过额外的一个全连接层对融合后的信息进行分类。
2.如权利要求1所述的基于Transformer与图神经网络的社交关系识别方法,其特征在于在步骤(2)中,通过两个共享参数的Vision Transformer网络提取两个单人边界框内的特征;通过一个单独的Vision Transformer网络提取一个人物对联合区域内的特征;通过适用于场景分类任务的RESNET-50网络提取场景特征。
3.如权利要求1所述的基于Transformer与图神经网络的社交关系识别方法,其特征在于在步骤(3)中,对步骤(2)中提取的人物对相关特征,将其中不同特征视作一个句子序列的不同单词,进而通过Transformer编码器网络对序列中的人物对相关特征之间的交互进行推理,以挖掘不同特征之间的联系。
4.如权利要求1所述的基于Transformer与图神经网络的社交关系识别方法,其特征在于在步骤(4)中,通过全连接层的方式融合步骤(3)所述的经过Transformer编码器网络的除残差嵌入块外的输出,使生成的社交关系节点包含了人物对相关特征之间的内在联系。
5.如权利要求1所述的基于Transformer与图神经网络的社交关系识别方法,其特征在于在步骤(6)中,通过全连接层的方式融合步骤(3)所述的残差模块与经过步骤(5)所述的门控图神经网络推理后的输出,将人物对相关信息传递至最后的分类层,提高对人物对相关特征信息的关注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111116796.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:车钩伸缩装置和车钩
- 下一篇:驱动电路与信号转换电路
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法