[发明专利]图像内容的语义表示在审

申请号：	201580070881.7	申请日：	2015-12-01
公开（公告）号：	CN107430604A	公开（公告）日：	2017-12-01
发明（设计）人：	A·波佩斯库;N·巴拉;A·L·金斯卡;H·勒博涅	申请（专利权）人：	原子能和能源替代品委员会
主分类号：	G06F17/30	分类号：	G06F17/30;G06K9/62
代理公司：	北京戈程知识产权代理有限公司11314	代理人：	程伟,黄岳巍
地址：	法国***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	图像内容语义表示
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明总体而言涉及数据挖掘的技术领域，并且尤其涉及图像内容的自动注释的技术领域。

背景技术

“多媒体”文件通过语源包括各种信息，通常与不同的感官或认知能力相关(例如，与视觉或听觉有关)。多媒体文件可以是例如伴随有“标记”的图像，也就是说通过注释，或者对应于包括图像和文本的网页。

数字文件通常可以分成几个信息“通道”，其可以包括例如文本信息(例如，源自OCR字符识别)和视觉信息(例如，文件中标识的图示和/或照片)。视频也可以分为几个这样的频道：视觉通道(例如，视频的帧)、声音通道(例如，声道)，文本通道(例如，从语音转录成文本的结果，以及视频的元数据，例如日期、作者、标题、格式等)。因此，多媒体文件尤其可以包括视觉信息(即，像素)和文本信息(即单词)。

当在多媒体数据中进行挖掘时，查询过程(即通过数据库进行搜索)可能涉及本身可能采用如下多种形式的查询：(a)一个或多个多媒体文件(组合图像和文本)、和/或(b)单独的视觉信息的形式(搜索称为“基于图像的搜索”或“基于图像内容的搜索”)、或(c)单独的文本形式(大众市场搜索引擎的一般情况)。

多媒体数据库内的信息搜索的技术问题尤其在于从最大可能性地类似于查询的库中检索文件。在注释的数据库(例如，利用标签和/或标记)中，由分类引起的技术问题在于为新的未注释的文件预测这个标签或这些标签。

唯一视觉文件的内容必须与分类模型相关联，所述分类模型确定了文件可能关联的类别，例如在没有标记或注释或基于图像的关键词的描述的情况下(或者例如间接地通过图像的出版的环境)。在可访问这些元数据的情况下，必须以一致且有效的方式来描述多媒体文件的内容(组合有图像和文本)。

因此，初始的技术问题在于确定出确定图像的视觉内容的有效方式，也就是说构建图像的视觉内容的语义表示。如果存在文本注释，则这将需要例如将视觉内容的表示与这些注释相结合。

因而构建的表示的相关性可以采用多种方式实现，其中一个特别是结果的准确性的测量。在图像搜索方面，准确性由语义上与图像查询、文本查询或图像和文本组合查询相似的图像数量给出。在图像分类方面，通过结果的准确性(例如正确预测的标签的比例)及其泛化能力(例如，针对要识别的几类的分类“工作”)来评估相关性。计算时间(通常由表示的复杂度确定)通常是这两个搜索和分类场景的重要因素。

结构化的广泛图像集合的可用性(例如，根据诸如ImageNet(Deng等人，2009)的概念，以及训练过程的可用性(其展现出足够的缩放可能性)已经导致提出了关于视觉内容的语义表示(参见Li等人，2010；Su和Jurie，2012；Bergamo和Torresani，2012)。这些表示通常通过从一个或多个基本视觉描述符开始(即，局部或全局或根据两者的组合)来实现。此后，这些描述由训练过程用于构建个体概念的分类器或描述符。分类器或描述符将一个或多个类别(例如，名称、质量、属性等)分配或指定给对象，或者将一个或多个这样的类别与对象(这里是图像)相关联。最后，通过将由测试图像的分类给出的概率分数与构成表示的概念相关联的每个分类器聚合得到最终描述(Torresani等人，2010)。另一方面，Li等人在2010年引入了ObjectBank，ObjectBank是一个由大约200个分类器的响应组成的语义表示，它们通过手动验证的图像库进行预先计算。在2012年，Su和Jurie手动选择了110个属性来实现图像的语义表示。在2010年，Torresani等人引入了“类素(classèmes)”，它们基于使用来自网页的图像训练的2000多个个体概念模型。在这项工作之后，Bergamo和Torresani在2012年引入了“元类”，即以源自将类似概念组合在一起并共同进行训练的ImageNet的概念为基础的表示。在2013年，使用深层神经网络来解决大规模图像分类问题(Sermanet等人；Donahue等人)。根据这种方法，网络最后一层给出的分类得分可用作图像内容的语义表示。然而，若干硬件限制意味着难以在同一个网络内有效地表示大量的类别和非常大量的图像。处理的类别的数量通常大约为1000，且图像的数量大约为百万。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于原子能和能源替代品委员会，未经原子能和能源替代品委员会许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201580070881.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]图像内容的语义表示在审

专利文献下载