[发明专利]基于压缩域的社会图像标签排序方法在审
申请号: | 201410146890.7 | 申请日: | 2014-04-12 |
公开(公告)号: | CN103970838A | 公开(公告)日: | 2014-08-06 |
发明(设计)人: | 张菁;刘欣;卓力;周倩兰;王超 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 压缩 社会 图像 标签 排序 方法 | ||
技术领域
本发明以社会化媒体网站中的压缩格式图像为研究对象,针对社会图像标签的不准确性提出基于压缩域的社会图像标签排序方法。
背景技术
随着互联网信息技术的飞速发展,社会化媒体成为了人们传播和分享信息的重要媒介,其主要特点是用户可以自由上传自己的媒体信息,并为其添加标签。社会化媒体网站拥有数以亿计的图像资源,并保持持续高速增长,面对海量的社会图像,如何有效地提供满足用户实际需求的社会图像,成为社会化媒体技术面临的难题之一。随着社会网络的发展,社会图像分享网站成为活跃于互联网上的一支新秀。社会图像分享网站(如Flickr)允许大众群体对社会图像标注文本信息,即标签,这是一种重要的图像语义信息。然而由于人们的文化背景及其对图像的理解和关注角度不同,对相同的图像所标记的标签也会产生差异,标签的无序性、不准确性严重降低了对图像内容的解释能力,因而难以有效的实现图像的组织、管理和分析。
为了组织和管理社会化媒体网站中的图像,基于内容的社会图像标签排序技术成为研究热点。目前,低层视觉特征的提取仍然是图像标签排序的基础,然而由于图像低层特征与其本身所包含的高层语义之间存在着巨大差距,使得标签排序还未取得令人满意的效果。
受文本内容分析的启发,有研究学者借鉴传统词典中用文本单词组合解释术语的思路,将图像视为视觉单词的组合(也称为词包),利用词包来描述图像的语义内容。该方法为缺乏准确描述图像信息的特征描述算子这一问题,提供了一种重要的解决思路,并进而为有效弥补图像低层特征和高层语义的鸿沟,提供了行之有效的方法。
据统计,社会媒体网站中绝大多数的图像是以压缩格式进行存储和传播的,对于这些以压缩格式存在的图像数据,传统的视觉单词提取方法须先解压缩才能进行局部特征描述算子的计算。这无疑增加了整个标签排序系统的时间,极大地影响了系统的灵活性、实时性。基于此,压缩域图像处理技术 成为一种必要,该技术充分利用图像压缩算法及其所形成压缩数据的特点,直接在尽量少解码的压缩数据上进行图像处理,减少了图像处理的数据量,有效地提高了图像处理的速度。
近年来有研究人员将图像标注问题看成是检索问题,通过提取图像的全局低层视觉特征和多种距离度量策略相结合的手段寻找与关键图视觉特征最相近的图像子集,借助近邻投票策略抽取若干个出现频率较高的关键词作为待标注图像的标注结果。其中的近邻投票策略能够降低复杂度,可适应大规模的训练数据,且对训练数据中的噪声不敏感。
本发明将视觉单词和压缩域图像处理两种技术有机地结合在一起,提取图像的尺度不变特征描述算子,建立视觉单词库,并融合图像的上下文信息得到描述性视觉词包。然后,查询得到图像的k近邻图像子集,再借助近邻投票的思想,统计图像子集中各个标签的相关度得分,即标签和图像的关联性,按照得分的高低来进行标签排序。不但能提高标签排序的准确率,而且可以满足社会图像实时处理的要求,对其组织、管理和分析具有重要的研究意义。
发明内容
本发明与已有的基于图像全局特征的方法不同,针对网络上大部分以压缩格式存在的社会图像,引入压缩域图像处理技术,通过提取图像的特征建立各类别图像的视觉单词库,并结合图像的空间上下文信息对其进行优化,最终生成的视觉词包具有更强的描述能力。然后查询得到图像的k近邻图像子集,并借助近邻投票实现社会图像的标签排序。该方法主要分为两大步骤:压缩域描述性视觉词包构建和标签排序,其流程如附图1所示。其中,压缩域描述性词包构建又可细分为四个步骤:重建低分辨率图像,提取SIFT描述算子,生成视觉单词,构建描述性视觉词包。标签排序又可细分为两个步骤:返回k近邻图像集,统计标签相关度得分并降序排列。
1.压缩域描述性词包构建
本发明运用压缩域图像处理技术,重建低分辨率图像,提取SIFT描述算子,聚类分析得到视觉单词库,最后构建描述性视觉词包,其流程如附图2所示。
1)重建低分辨率图像
低分辨率图像重建可以避免反离散余弦变换的过程,提高图像重建的速度。本发明针对8×8的图像块进行讨论。图像块在压缩过程中,经DCT变换和量化后大量的高频系数变为0。因此,为了简化计算,在解码端反量化后,对DCT变换后的高频系数进行了一定程度的舍弃,保留zigzag排序后的前16位DCT系数组成4×4维的矩阵,其中包括1个直流系数和15个交流系数。然后将所有子块矩阵组合起来,构建出原图像分辨率的1/2×1/2版本的图像。
2)提取SIFT描述算子
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410146890.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:校用报纸宣传栏
- 下一篇:一种用于LED显示屏的箱体及LED显示屏的安装结构
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序