[发明专利]一种基于Transformer的社交关系识别方法在审

专利信息
申请号: 202111116796.3 申请日: 2021-09-23
公开(公告)号: CN115858943A 公开(公告)日: 2023-03-28
发明(设计)人: 卿粼波;王昱晨;王正勇;何小海;滕奇志;陈洪刚;任超 申请(专利权)人: 四川大学
主分类号: G06F16/9536 分类号: G06F16/9536;G06Q50/00;G06F18/241;G06N3/0464;G06N3/08;G06N5/04
代理公司: 暂无信息 代理人: 暂无信息
地址: 610065 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 transformer 社交 关系 识别 方法
【说明书】:

本发明提出了一种基于Transformer的社交关系识别方法,主要涉及深度学习中通过Transformer提取与推理相关特征并进行社交关系识别的问题。首先,通过特征提取模块提取相关特征;然后,利用特征推理模块推理特征间的联系并形成关系、场景结点,引入残差块传递人物对信息至分类层;最后,构建全连接的社交关系‑场景图,利用GGNN进行图推理后融合残差块进行社交关系分类。本发明充分考虑社交关系识别相关的特征提取,利用Transformer挖掘了人物对特征间的内在联系并引入图神经网络推理关系之间的逻辑关系,解决了社交关系识别中特征提取不充分、特征融合方式过于粗糙及推理识别分类不合理的问题。

技术领域

本发明涉及深度学习领域中的社交关系识别问题,尤其是涉及一种基于Transformer的社交关系识别方法。

背景技术

在计算机视觉领域,社交关系识别是一项研究人与人之间的社会关系的重要任务,为理解人的交互行为提供了重要的线索。目前现有的研究大多以人脸、身体区域、场景等相关特征为基础来进行社交关系识别,取得了一定的成效。近年来,专为图结构数据设计的图神经网络快速发展,并对其它领域也起到了促进作用。因此,部分研究者将其引入到社交关系识别领域中,模拟人的思维对场景中的人物和物体关系进行推理来提升社交关系识别的准确率。此外,凭借自身对于信息的强大推理能力,基于Transformer结构的网络在自然语言处理领域和计算机视觉领域都取得了较大的突破,因而也在计算机视觉中的社交关系识别领域展现出了一定潜力。目前,社交关系识别在照片分类、群体划分、人群活动分析等领域发挥着重要作用。

社交关系识别作为计算机视觉领域的重要研究任务,受到了国内外相关研究人员的广泛关注。目前已有的方法往往采用传统的卷积神经网络作为特征提取骨干网络,从而更为关注局部的信息,无法有效提取全局信息中隐含的人物对的交互性信息。另外,大多数的方法对于提取的特征向量仅仅采取简单的拼接融合方式,抑或是直接拼接后作为图神经网络的节点,无法充分挖掘人物对特征之间的内在联系,且复杂的网络降低了对于人物对相关特征的重视程度。因此,本专利先通过一层全连接层、两个权重共享的VisionTransformer网络,一个参数独立的Transformer网络、一个ResNet-50网络一次性提取人物对的相对位置特征、人物对中每一个人的特征、人物对共同区域的特征以及整幅图的场景特征;然后通过Transformer解码器网络对人物对相关的特征进行推理,挖掘特征之间的内在联系,并且引入一个残差嵌入块传递人物对相关特征信息至分类层;随后融合除场景特征外的所有特征形成社交关系结点,以及将提取到的场景特征作为场景结点,接着将这些社交关系结点和场景结点以全连接的方式连接起来形成引入场景的社交关系图并送入图神经网络中进行图推理;最后,移除场景结点,通过残差连接将人物对相关信息与图推理后的社交关系节点进行融合,对融合后的信息进行分类,以提高社交关系的合理性与识别准确率。

发明内容

本发明的目的是提供一种基于Transformer的社交关系识别方法,首先利用Vision Transformer网络与全连接网络充分提取社交关系识别相关的人物对特征、利用ResNet-50网络提取场景特征,然后通过Transformer解码器推理人物对相关特征之间的内在联系并引入残差嵌入块传递人物对特征信息,接着采取社交关系-场景图的形式引入图神经网络对处理后的特征进行融合、推理,最后引入残差连接将人物对特征信息与图推理后的社交关系节点信息融合以便合理分类,有效解决了社交关系识别中特征提取不充分、特征融合方式过于粗糙及推理识别分类不合理的问题。

为了方便说明,首先引入一下概念:

预训练模型:神经网络的训练需要大量的数据、时间和充足的计算资源,为了避免网络的重复训练,将其他研究者训练的具有较好效果的模型参数迁移到特定任务中的模型中来,并进行微调以适应该任务的需求。

Transformer:一种深度学习网络,通过采用了自注意力机制来对输入数据进行并行方式的提取,一般由解码器与编码器两部分组成。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111116796.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top