[发明专利]基于有监督共享组件主题模型的图像分类方法有效
申请号: | 201410064338.3 | 申请日: | 2014-02-25 |
公开(公告)号: | CN103810287B | 公开(公告)日: | 2017-03-01 |
发明(设计)人: | 王爽;焦李成;陈阳平;霍丽娜;侯彪;马文萍;马晶晶;张雪 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 陕西电子工业专利中心61205 | 代理人: | 田文英,王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一基于有监督共享组件主题模型的图像分类方法,主要解决现有技术中参数数量较多、忽略主题之间相关性和潜在语义特征对图像表示效果较差的问题。其实现步骤是建立自然图像训练集和自然图像测试集;生成视觉字典;生成图像稀疏表示向量;生成主题分布向量;构建自然图像分类模型;进行自然图像分类。本发明采用使用吉布斯采样方法和主题非平衡先验概率方法,减少了参数数量,增加了主题之间的相关性,图像的主题分布向量对图像的表示效果更好,提高了图像分类正确率。 | ||
搜索关键词: | 基于 监督 共享 组件 主题 模型 图像 分类 方法 | ||
【主权项】:
基于有监督共享组件主题模型的图像分类方法,包括如下步骤:(1)建立自然图像训练集和自然图像测试集:(1a)从待分类的图像库中的每个图像类别中,随机选取50~100幅图像,将所选取的图像组成自然图像训练集;(1b)将图像库中选取自然图像训练集后剩余的图像,组成自然图像测试集;(2)生成视觉字典:(2a)用均匀的网格分别对自然图像训练集和自然图像测试集中的每幅图像进行网格划分,将每幅图像划分后的所有网格作为该幅图像的采样点;(2b)用尺度不变特征提取方法,对每幅图像的每个采样点提取尺度不变特征,将每幅图像提取的所有尺度不变特征作为该幅图像的尺度不变特征集合;(2c)计算自然图像训练集上所有图像的尺度不变特征之间的欧式距离,按照欧式距离对尺度不变特征进行聚类,每个聚类中心对应一个视觉词汇;(2d)将所有聚类中心构成视觉字典;(3)生成图像稀疏表示向量:(3a)计算自然图像训练集和自然图像测试集中每幅图像的尺度不变特征集合中的每个尺度不变特征与视觉字典中的每个词汇所对应尺度不变特征之间的欧式距离,找出并保存欧氏距离最小的词汇,将每幅图像保存的所有欧氏距离最小的词汇构成该幅图像的词汇集合;(3b)统计视觉字典中每个词汇在自然图像训练集和自然图像测试集中每幅图像的词汇集合中出现的频次,将所统计的频次构成每幅图像的稀疏表示向量;(4)生成主题分布向量:(4a)用吉布斯采样方法,得到自然图像训练集中每幅图像的潜在语义主题集合和潜在语义主题模型;(4b)估计自然图像训练集中每个图像类别主题的先验概率;(4b1)统计自然图像训练集每幅图像的潜在语义主题集合中的每个主题在自然图像训练集每幅图像的潜在语义主题集合中出现的频次,将所统计的频次构成自然图像训练集每幅图像的潜在语义主题分布;(4b2)按照下式,计算自然图像训练集每个图像类别的主题先验概率:βk=αΣm=1D(Ψ(smk+α)-Ψ(α))Σm=1D(Ψ(Σksmk+α)-Ψ(α))]]>其中,βk表示主题k在自然图像训练集中每个图像类别中的主题先验概率,smk表示主题k在自然图像训练集图像m中出现的频次,D表示自然图像训练集中每个图像类别中的图像个数,α表示主题在自然图像训练集图像中发生的先验概率;(4c)用潜在语义主题模型和自然图像训练集每个图像类别的主题先验概率,生成自然图像测试集中每幅图像的潜在语义主题分布;(4d)将自然图像训练集和自然图像测试集中每幅图像的潜在语义主题分布,作为主题分布向量;(5)构建自然图像分类模型:将自然图像训练集中每幅图像的潜在语义主题分布和与其对应的类别,作为训练数据,将训练数据放入支撑向量机SVM,获得自然图像分类模型;(6)进行自然图像分类:对自然图像测试集中每一幅图像,用自然图像分类模型预测图像类别,完成图像分类过程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410064338.3/,转载请声明来源钻瓜专利网。