[发明专利]紧凑的无语言面部表情嵌入和新颖三元组的训练方案有效
申请号: | 202110333798.1 | 申请日: | 2018-03-14 |
公开(公告)号: | CN112990054B | 公开(公告)日: | 2023-01-10 |
发明(设计)人: | R.维姆拉帕利;A.阿加尔瓦拉 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V10/82;G06V10/70;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 紧凑 语言 面部 表情 嵌入 新颖 三元 训练 方案 | ||
本公开提供了包括或以其他方式利用面部表情模型的系统和方法,该面部表情模型被配置为提供面部表情嵌入。具体而言,面部表情模型可以接收描绘面部的输入图像,并且作为响应,提供面部表情嵌入,该面部表情嵌入对描述由输入图像中描绘的面部做出的面部表情的信息进行编码。例如,面部表情模型可以是或包括神经网络,诸如卷积神经网络。本公开还提供了一种新颖且独特的三元组训练方案,其不依赖于将特定图像指定为锚或参考图像。
本申请是申请日为2018年3月14日、申请号为201880042030.5、发明名称为“紧凑的无语言面部表情嵌入和新颖三元组的训练方案”的发明专利申请的分案申请。
技术领域
本公开总体上涉及机器学习。更具体地,本公开涉及紧凑的无语言(language-free)面部表情嵌入和相关联的新颖的三元组(triplet)训练技术。
背景技术
机器学习通常指的是计算机科学的一个领域,该领域的重点是诸如计算机的机器能够在没有明确编程的情况下学习。机器学习包括研究和构建机器执行的、使机器能够从数据中学习并对数据做出预测的算法或技术。具体而言,这种算法可以通过从输入观察的训练集建立模型来操作,以便做出被表达为输出的、由数据驱动的预测或决策,而不是严格遵循静态编程指令。
机器学习技术的一个主要分支包括监督学习技术。监督学习可以包括从包括许多标记示例的训练数据集推断或学习函数或模型。例如,训练数据集中的每个示例可以包括一个或多个输入值(可以被表达为具有多个特征的向量、二维矩阵或其他格式)和一个或多个期望的输出值(也可以称为监督信号)。通常,使用提供输入值和输出值的已知的地面真值(ground truth)信息来标记受监督的训练数据。受监督的机器学习算法可以分析训练数据并产生推断模型,然后该模型可以用于对新的、未标记的示例进行映射或做出预测。
然而,在许多场景中,标记的数据和/或地面真值数据可能难以获得和/或获得成本高昂。例如,数据的手动标记可能要求人类确定并向大量的训练示例提供大量的标记,这可能要求过多的时间和费用。此外,提供手动标记在概念上具有挑战性,因为在某些情况下,可能要求(多个)人类标记员提前就具体哪些标记可供使用达成一致。即使假设对可用标记的词汇表达成一致,标记员也可能不同意应用哪个标记,或者如何或何时将标记应用于给定的训练示例。
发明内容
本公开的实施例的方面和优点将在以下描述中部分阐述,或者可以从描述中获知,或者可以通过实施例的实践获知。
本公开的一个示例方面针对一种计算机系统。所述计算机系统包括:机器学习模型,被配置为接收输入,并且作为响应,提供对描述所述输入的信息进行编码的嵌入;一个或多个处理器;和存储指令的一个或多个非暂时性计算机可读介质,所述指令当由所述一个或多个处理器执行时,使得所述计算机系统:获取输入;向所述机器学习模型提供输入;和接收所述对描述所述输入的信息进行编码的嵌入作为所述机器学习模型的输出;其中,所述机器学习模型已经在训练数据集上训练,所述训练数据集包括组织成训练输入三元组的多个训练输入;其中,每个训练输入三元组包括标签,所述标签指示被包括在这个训练输入三元组中的三个训练输入中的哪两个已经被评估为这个训练输入三元组中最相似的训练输入对;其中,每个训练输入三元组包括第一训练输入、第二训练输入和第三训练输入,其中所述第一训练输入和所述第二训练输入已经被评估为所述训练输入三元组中最相似的训练输入对;其中,所述机器学习模型已经用对第一约束和第二约束两者进行编码的目标函数进行了训练;其中,所述第一约束包括这样的第一要求:由所述机器学习模型为所述第一训练输入提供的第一嵌入和由所述机器学习模型为所述第二训练输入提供的第二嵌入之间的第一距离小于所述第一嵌入和由所述机器学习模型为所述第三训练输入提供的第三嵌入之间的第二距离;和其中,所述第二约束包括这样的第二要求:所述第一嵌入和所述第二嵌入之间的第一距离小于由所述机器学习模型为所述第二训练输入提供的第二嵌入和由所述机器学习模型为所述第三训练输入提供的第三嵌入之间的第三距离。
作为示例,对于每个训练输入三元组,所述三个训练输入中没有一个被指示为锚训练输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110333798.1/2.html,转载请声明来源钻瓜专利网。