[发明专利]基于隐结构学习的图像摘要生成方法有效
申请号: | 201310410623.1 | 申请日: | 2013-09-10 |
公开(公告)号: | CN103530656B | 公开(公告)日: | 2017-01-11 |
发明(设计)人: | 汤斯亮;邵健;方晗吟;吴飞;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06K9/66 | 分类号: | G06K9/66;G06F17/30;G06T11/60 |
代理公司: | 杭州求是专利事务所有限公司33200 | 代理人: | 张法高 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 结构 学习 图像 摘要 生成 方法 | ||
技术领域
本发明涉及图像摘要生成,尤其涉及一种基于隐结构学习的图像摘要生成方法。
背景技术
目前,随着存储技术和网络技术的发展,每天都有海量的图像文件被上传于互联网上。用户一方面能访问到越来越多的图像数据,另一方面数据本身越来越复杂的结构和冗余性也给用户获得有用的信息带来了巨大的困难。例如,用户利用搜索引擎可以通过关键字搜索出大量的图片,但这些图片中含有大量的重度相似图片,阻碍了信息的整体呈现,同时兼顾到信息覆盖度和冗余度的摘要则成为更合理的呈现方式;又如,图片分享网站Flickr上含有大量的个人相册,如何给相册挑选出最具有代表性的图片作为封面,也成为很有趣的问题。因此,研究一种针对图像文件集合的摘要生成方法具有很强的现实意义。
图像文件集合是当前非常常见的信息载体,它由大量的关于同一主题的图片组成,并具有一定的相似性和差异性。如搜索引擎得到的关键字相关图片集合或社交网络中的个人相册。一般来说,图像文件集合具有两个特点。第一,同一主题相关,即图片包含的信息的主体是相同的;第二,图片独立性,即不同的图片含有描述主题的不同方面的信息并且含有一定的噪声信息。第三,主题的差异性,即不同的主题相关图片集所包含和偏好的信息是有差异的。因此,当对图片集合进行摘要生成时,需要将原始图像集合和准备生成的摘要图片集合都当做整体来考虑并且将主题的差异性考虑进去。由于传统的许多摘要方法往往是将摘要中的每张图片独立考虑,没有综合考虑摘要图片集合内部各个图片所蕴涵的互补信息和冗余信息,因此不能很好地综合分析原图片集合并得到良好的摘要。此外,进来提出的一些摘要生成方法虽然将摘要图片集合作为一个整体结构考虑,但是并未将相关主题的差异性纳入考虑,从而无法很好地适应用户需求。
针对图像摘要这一现实需求以及当前方法所存在的不足之处,本发明提供了一种能很好地兼顾摘要整体的信息覆盖度和冗余度并且能将主题相关差异性纳入考虑的图像摘要生成方法。
发明内容
本发明的目的在于提供一种基于隐结构学习的图像摘要的方法。
基于隐结构学习的图像摘要生成方法包括如下步骤:
1)对图片提取HSV颜色直方图特征、视觉单词特征以及方向直方图特征;
2)对上一步提取的三种特征进行归一化的预处理并在归一化后将三种特征融合为一个特征向量;
3)构造一个带有隐变量的结构支持向量机,从数据库中多次选取训练集合,并利用训练集中不同主题相关的图片集合进行权重系数学习;
4)利用上一步学习得到的权重系数,从数据库中选取不同主题相关的图片集,预测出它们的隐含的特征选择偏好并生成与之对应的摘要图片集合。
所述的步骤1)包括:
1)对数据库内的所有图片在HSV颜色空间中进行颜色特征提取。首先将图片中的每一个像素计算其在HSV颜色空间中的表达,然后将HSV颜色特征空间均匀地划分为450个区域,最后对每个区域统计落在其中的像素个数,形成450维的颜色直方图特征;
2)对数据库内的每张图片的每个像素,计算它与周围像素之间的差异性,得到128维的SIFT特征点;然后在得到的SIFT特征点基础上,利用K-means方法进行聚类,聚类得到的1000个SIFT点类别就形成了1000维的视觉单词特征;
3)对数据库内的每张图片进行8×8的块划分;对每个划分好的块,计算它与周围块之间的方向梯度;将方向梯度特征的取值范围均匀划分为1000个区域,统计落在这1000个区域中的方向梯度特征数量,就得到了1000维的方向梯度直方图特征;
所述的步骤2)包括:
1)将前一步得到的HSV颜色直方图特征、视觉单词特征以及方向梯度直方图特征三种特征向量按照上述顺序,依次连接融合,得到2450维特征;
2)对上面得到的2450维的融合特征,利用如下公式,将原特征值进行归一化。归一化后,特征的取值范围统一变为0.1到0.9。
x=0.1+(0.9-0.1)(x-min)(max-min)
所述的步骤3)包括:
1)为实现交叉验证,多次从数据库中设计训练集,并取出其中的主题图片集合;
2)将权重系数参数w初始化为零向量,将隐藏特征选择变量h初始化为全1向量,通过以下的次梯度下降算法同时对w和h进行优化求解,最终输出训练好的权重系数w。
所述的步骤4)包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310410623.1/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序