[发明专利]图像内容的语义表示在审
申请号: | 201580070881.7 | 申请日: | 2015-12-01 |
公开(公告)号: | CN107430604A | 公开(公告)日: | 2017-12-01 |
发明(设计)人: | A·波佩斯库;N·巴拉;A·L·金斯卡;H·勒博涅 | 申请(专利权)人: | 原子能和能源替代品委员会 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京戈程知识产权代理有限公司11314 | 代理人: | 程伟,黄岳巍 |
地址: | 法国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像 内容 语义 表示 | ||
技术领域
本发明总体而言涉及数据挖掘的技术领域,并且尤其涉及图像内容的自动注释的技术领域。
背景技术
“多媒体”文件通过语源包括各种信息,通常与不同的感官或认知能力相关(例如,与视觉或听觉有关)。多媒体文件可以是例如伴随有“标记”的图像,也就是说通过注释,或者对应于包括图像和文本的网页。
数字文件通常可以分成几个信息“通道”,其可以包括例如文本信息(例如,源自OCR字符识别)和视觉信息(例如,文件中标识的图示和/或照片)。视频也可以分为几个这样的频道:视觉通道(例如,视频的帧)、声音通道(例如,声道),文本通道(例如,从语音转录成文本的结果,以及视频的元数据,例如日期、作者、标题、格式等)。因此,多媒体文件尤其可以包括视觉信息(即,像素)和文本信息(即单词)。
当在多媒体数据中进行挖掘时,查询过程(即通过数据库进行搜索)可能涉及本身可能采用如下多种形式的查询:(a)一个或多个多媒体文件(组合图像和文本)、和/或(b)单独的视觉信息的形式(搜索称为“基于图像的搜索”或“基于图像内容的搜索”)、或(c)单独的文本形式(大众市场搜索引擎的一般情况)。
多媒体数据库内的信息搜索的技术问题尤其在于从最大可能性地类似于查询的库中检索文件。在注释的数据库(例如,利用标签和/或标记)中,由分类引起的技术问题在于为新的未注释的文件预测这个标签或这些标签。
唯一视觉文件的内容必须与分类模型相关联,所述分类模型确定了文件可能关联的类别,例如在没有标记或注释或基于图像的关键词的描述的情况下(或者例如间接地通过图像的出版的环境)。在可访问这些元数据的情况下,必须以一致且有效的方式来描述多媒体文件的内容(组合有图像和文本)。
因此,初始的技术问题在于确定出确定图像的视觉内容的有效方式,也就是说构建图像的视觉内容的语义表示。如果存在文本注释,则这将需要例如将视觉内容的表示与这些注释相结合。
因而构建的表示的相关性可以采用多种方式实现,其中一个特别是结果的准确性的测量。在图像搜索方面,准确性由语义上与图像查询、文本查询或图像和文本组合查询相似的图像数量给出。在图像分类方面,通过结果的准确性(例如正确预测的标签的比例)及其泛化能力(例如,针对要识别的几类的分类“工作”)来评估相关性。计算时间(通常由表示的复杂度确定)通常是这两个搜索和分类场景的重要因素。
结构化的广泛图像集合的可用性(例如,根据诸如ImageNet(Deng等人,2009)的概念,以及训练过程的可用性(其展现出足够的缩放可能性)已经导致提出了关于视觉内容的语义表示(参见Li等人,2010;Su和Jurie,2012;Bergamo和Torresani,2012)。这些表示通常通过从一个或多个基本视觉描述符开始(即,局部或全局或根据两者的组合)来实现。此后,这些描述由训练过程用于构建个体概念的分类器或描述符。分类器或描述符将一个或多个类别(例如,名称、质量、属性等)分配或指定给对象,或者将一个或多个这样的类别与对象(这里是图像)相关联。最后,通过将由测试图像的分类给出的概率分数与构成表示的概念相关联的每个分类器聚合得到最终描述(Torresani等人,2010)。另一方面,Li等人在2010年引入了ObjectBank,ObjectBank是一个由大约200个分类器的响应组成的语义表示,它们通过手动验证的图像库进行预先计算。在2012年,Su和Jurie手动选择了110个属性来实现图像的语义表示。在2010年,Torresani等人引入了“类素(classèmes)”,它们基于使用来自网页的图像训练的2000多个个体概念模型。在这项工作之后,Bergamo和Torresani在2012年引入了“元类”,即以源自将类似概念组合在一起并共同进行训练的ImageNet的概念为基础的表示。在2013年,使用深层神经网络来解决大规模图像分类问题(Sermanet等人;Donahue等人)。根据这种方法,网络最后一层给出的分类得分可用作图像内容的语义表示。然而,若干硬件限制意味着难以在同一个网络内有效地表示大量的类别和非常大量的图像。处理的类别的数量通常大约为1000,且图像的数量大约为百万。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于原子能和能源替代品委员会,未经原子能和能源替代品委员会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201580070881.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:直行电梯单轨双梁轿架结构
- 下一篇:一种平稳开门与关门的电梯
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法