[发明专利]机器学习模型训练方法和装置、场景图生成方法和装置在审
申请号: | 202211519169.9 | 申请日: | 2022-11-30 |
公开(公告)号: | CN115908850A | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 詹忆冰;林鑫 | 申请(专利权)人: | 京东科技信息技术有限公司 |
主分类号: | G06V10/44 | 分类号: | G06V10/44;G06V10/774;G06V10/82;G06F17/16;G06N3/0464;G06N3/08 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 刘剑波;许蓓 |
地址: | 100176 北京市大兴区北京经*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 机器 学习 模型 训练 方法 装置 场景 生成 | ||
本公开提供一种机器学习模型训练方法和装置、场景图生成方法和装置,涉及人工智能领域。机器学习模型训练方法包括:提取样本图像中的第一目标特征信息;利用第一机器学习模型对第一目标特征信息和预设的重加权系数进行信息传递处理,以得到样本图像的第二目标特征信息;利用样本图像的第二目标特征信息生成第一场景图;利用第一场景图和样本图像的标注结果,生成第一损失函数;利用第一损失函数对第一机器学习模型进行训练。
技术领域
本公开涉及人工智能领域,特别涉及一种机器学习模型训练方法和装置、场景图生成方法和装置。
背景技术
场景图生成是利用图谱的形式将图像或视频中的目标以及目标之间的关系进行表征的技术。场景图包含多个三元组。每个三元组由两个节点(代表目标)和一条边(代表关系)组成。例如,图像中包括一个人和一辆自行车,可能的一个关系是这个人骑着自行车。
现有的场景图生成方法主要包括上下文信息建模的场景图方法。该方法使用基于图卷积网络的上下文信息传递来提升对物体和关系的识别准确性。
发明内容
发明人注意到,基于图卷积的上下文信息传递方法对于空间距离较近的目标会倾向于产生较大的关联响应。例如,目标A和目标B在语义上相差较远,但目标A和目标B的空间位置较近,从而无法准确区分开目标A和目标B,即导致出现目标表征混淆问题。
据此,本公开提供一种机器学习模型训练方案,通过对图像信号进行降噪,从而有效解决目标表征混淆问题。
根据本公开实施例的第一方面,提供一种机器学习模型训练方法,包括:提取样本图像中的第一目标特征信息;利用第一机器学习模型对所述第一目标特征信息和预设的重加权系数进行信息传递处理,以得到所述样本图像的第二目标特征信息;利用所述样本图像的第二目标特征信息生成第一场景图;利用所述第一场景图和所述样本图像的标注结果,生成第一损失函数;利用第一损失函数对所述第一机器学习模型进行训练。
在一些实施例中,所述利用第一机器学习模型对所述第一目标特征信息和预设的重加权系数进行信息传递处理包括:利用所述第一目标特征信息和所述重加权系数生成目标关联矩阵;利用所述第一目标特征信息和所述目标关联矩阵生成所述第二目标特征信息。
在一些实施例中,所述目标关联矩阵与所述重加权系数和所述第一目标特征信息的注意力评分结果的哈达玛Hadamard乘积相关联;所述第二目标特征信息与所述第一目标特征信息、所述目标关联矩阵与所述第一目标特征信息的乘积和预设目标特征信息之和相关联。
在一些实施例中,所述目标关联矩阵A(k+1)为:
A(k+1)=Normalize(Ω(k)⊙H(Y(k)))
其中,Normalize为归一化函数,Ω(k)为所述重加权系数,Y(k)为所述第一目标特征信息,H为注意力评分函数,⊙为Hadamard乘法算符;所述第二目标特征信息Y(k+1)为:
Y(k+1)=AF1(a(Y(k)+A(k+1)Y(k)+Y(0)))
其中,AF1为激活函数,a为系数,Y(0)为所述预设目标特征信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东科技信息技术有限公司,未经京东科技信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211519169.9/2.html,转载请声明来源钻瓜专利网。