[发明专利]一种基于人机交互的图像高级语义解析的方法在审

申请号：	201410790684.X	申请日：	2014-12-17
公开（公告）号：	CN104484666A	公开（公告）日：	2015-04-01
发明（设计）人：	林格;罗甜;罗笑南	申请（专利权）人：	中山大学
主分类号：	G06K9/46	分类号：	G06K9/46;G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	510006 广东省广州市番禺***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于人机交互图像高级语义解析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及人机交互技术领域，尤其涉一种基于人机交互的图像高级语义解析的方法。

背景技术

随着互联网的普及，存储技术、多媒体技术和数据库技术快速发展，人们在图像应用上所提出的要求日益增长。物理学界认为，人类特有的三种信息是语言、符号和图像，信息的传播在很大程度上依赖于视觉，至少有80％的外界信息是通过视觉感知获得的,视觉是人和动物最重要的感觉。一幅图像中包含的语义信息相当丰富，但是不是任何群体都有正常的视觉功能或有良好的理解能力，所以如何借助计算机自动解析图像是一项有意义且具有挑战的任务。而最终得到准确的语义解析与表达实现过程中需要借助计算机自动对图像进行标注。

图像语义的研究主要集中在基于图像各层语义的分类及检索、低层语义特征的提取、中层对象语义的描述等方面。进入20世纪90年代后，基于内容的图像检索(Content-Based Image Retrieval，CBIR)成为一个研究热点，也成为多媒体数据库、数字图书馆等重大研究项目中的关键技术。CBIR从一定程度上解决了基于文本的图像检索的局限性，它通过计算图像视觉特征(如颜色、纹理、形状等)间的相似度来匹配图像，以及运用可视化的查询方式来代替基于文本的图像检索。实现了使用颜色、纹理、形状及区域等图像视觉内容特征的检索和“以图找图”的检索模式的飞跃。基于内容的图像检索融合了图像理解、模式识别信息技术等领域知识，是多种高新技术的合成。一些研究者重点对图像底层视觉特征提取及表示进行研究，并取得了一定的成果。然而，在实际应用中，传统的CBIR系统的检索结果往往难以令人满意，不能满足人们按照语义检索图像的需求，这主要因为用户往往对所需的图像只存在有关图像描述的对象、事件以及表达的情感等含义上的一些高层概念(如度假、城市、肖像等)，用户需要的是图像语义的查询，而不是图像的底层视觉特征。这里提到的图像的含义就是图像的高层语义特征，它包含了人们对图像内容的理解，这种理解要根据人的认知知识来判断，并不能够直接从图像的底层特征获得。这就产生了基于内容的图像检索系统中存在的“语义鸿沟”问题，即人对图像内容的理解与计算机自动提取的图像视觉特征间存在的巨大的差异。进入21世纪，图像检索围绕图像语义(Image Semantic)这一热点展开，其目的是使计算机检索图像的能力达到人的理解水平，实现更为贴近用户理解能力的自然而简洁的查询方式，并提高图像检索的精度。基于语义的图像检索(Semantic-Based Image Retrieval，SBIR)立足于图像的语义特征，研究如何将图像的底层视觉特征映射到图像高层语义，以及如何描述这些高层语义。随着2001年9月“多媒体内容描述接口”MPEG-7标准的推出和逐渐完善，数字化图像将具有统一的视觉特征描述参数和表达复杂语义关系的描述定义语言，这将有利于基于语义的图像检索技术取得突破性进展，并走向实用化和通用化。图像语义自动标注是基于语义的图像检索的关键环节，已经成为图像检索中的研究热点。图像语义的自动标注就是为图像添加关键字来表示图像的语义内容，能够将图像的视觉特征转化为图像的标注字信息，继承了关键字检索的高效率，也克服了手工标注费时费力的缺点。算法的步骤一般有两个方面：首先对标注了同一语义的所有图像底层特征组成的集合进行统计学习，得到该语义类的训练模型；其次对于一幅待标注的图像，同样提取图像底层特征，根据已求得的语义类的训练模型，获得属于该图像语义的概率，因而可以求得在待标注的图像中，所有语义概念或者说文本关键字出现的概率。对图像的语义概率按序排列，选择概率最高的若干个关键词作为此图像的语义标签。图像语义的自动标注作为图像检索领域研究的热点，具有广泛的应用前景，主要包括医学图像分类、数字化图书馆的建立和管理、数码照片的检索和管理、视频检索、卫星遥感图像处理等方面。

在图像语义描述中，图像内容描述具有“像素-区域-目标-场景”的层次包含关系，而语义描述的本质就是采用合理的构词方式进行词汇编码(Encoding)和注解(Annotation)的过程。这种过程与图像内容的各层描述密切相关，图像像素和区域信息源于中低层数据驱动，根据结构型数据的相似特性对像素(区域)进行“标记”(Labeling)，可为高层语义编码提供有效的低层实体对应关系。目标和场景的中层“分类”(Categorization)特性也具有明显的编码特性，每一类别均可视为简单的语义描述，为多语义分析的拓展提供较好的原型描述。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410790684.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于亮度特征和轮廓完整性的轮廓提取方法
下一篇：面向可重构阵列架构的随机化抗故障攻击措施的设计方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于人机交互的图像高级语义解析的方法在审

专利文献下载