[发明专利]使用机器学习模型来对图像进行分类有效

申请号：	201780047055.X	申请日：	2017-07-14
公开（公告）号：	CN109564575B	公开（公告）日：	2023-09-05
发明（设计）人：	弗朗索瓦·肖莱	申请（专利权）人：	谷歌有限责任公司
主分类号：	G06F16/583	分类号：	G06F16/583
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	李佳;周亚荣
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	使用机器学习模型图像进行分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

用于使用机器学习模型来对图像进行分类的系统和方法。所述方法中的一种包括：获得用于训练所述机器学习模型的训练数据，其中，所述机器学习模型被配置成处理输入图像以针对每个输入图像生成嵌入空间中的预测点；从针对所述训练数据中的训练图像的标签数据，确定所述对象类别中的每一个对象类别的相应的数字嵌入，其中，任何两个对象类别的数字嵌入之间的所述嵌入空间中的距离反映所述两个对象类别的视觉共现的程度；以及在所述训练数据上训练所述机器学习模型。本说明书中描述的所述系统可有效地执行多标签、大规模多类别图像分类，其中类的数目大(数千或数万)并且其中每个图像通常属于应该全部被适当地识别的多个类别。

技术领域

本说明书涉及使用机器学习模型来处理图像。

背景技术

图像分类系统可识别图像中的对象，即，将输入图像分类为包括来自一个或多个对象类别的对象。一些图像分类系统使用一个或多个机器学习模型(例如，深度神经网络)来对输入图像进行分类。

机器学习模型接收输入并且基于所接收到的输入来生成输出，例如预测输出。一些机器学习模型是参数模型并且基于所接收到的输入并基于模型的参数的值来生成输出。

一些机器学习模型是采用模型的多个层来针对接收到的输入生成输出的深度模型。例如，深度神经网络是包括输出层和一个或多个隐藏层的深度机器学习模型，所述一个或多个隐藏层各自对接收到的输入应用非线性变换以生成输出。

发明内容

本说明书描述作为计算机程序实现在一个或多个位置中的一个或多个计算机上的系统可以如何训练机器学习模型，并且，一旦被训练，就使用经训练后的机器学习模型来对接收到的图像进行分类。

可实现本说明书中描述的主题的特定实施例以便实现以下优点中的一个或多个。本说明书中描述的图像分类系统可有效地执行多标签、大规模多类别图像分类，其中类的数目大(数千或数万)并且其中每个图像通常属于应该全部被适当地识别的多个类别。特别地，通过如本说明书中所描述的那样生成对象类别的数字嵌入并且使用这些嵌入来对图像进行分类，即便当图像包括属于多个对象类的对象时图像分类系统也能够准确地对输入图像进行分类。特别地，通过利用类别空间的内部结构来基于类别共现生成嵌入，可实现由分类系统使用的机器学习模型的训练速度、精度或回调中的一个或多个方面的增益。

在下面的附图和描述中阐述了本说明书的主题的一个或多个实施例的细节。主题的其它特征、方面和优点将根据说明书、附图和权利要求书变得显而易见。

附图说明

图1是图像分类系统的示例的框图。

图2是用于训练机器学习模型以对图像进行分类的示例过程的流程图。

图3是用于使用训练后的机器学习模型来对新图像进行分类的示例过程的流程图。

在各个附图中相似的附图标记和名称指示相似的元件。

具体实施方式

本说明书描述作为计算机程序实现在一个或多个位置中的一个或多个计算机上的系统可以如何确定对象类别在嵌入空间中的数字嵌入，使用数字嵌入来训练机器学习模型以对图像进行分类，并且，一旦被训练，就使用训练后的机器学习模型来对接收到的图像进行分类。

图1示出示例图像分类系统100。图像分类系统100是作为计算机程序实现在一个或多个位置中的一个或多个计算机上的系统的示例，在下面描述的系统、组件和技术被实现在所述一个或多个计算机中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司，未经谷歌有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】