[发明专利]基于社群潜在主题挖掘的自动图像标注的方法无效
申请号: | 200910099916.6 | 申请日: | 2009-06-18 |
公开(公告)号: | CN101685464A | 公开(公告)日: | 2010-03-31 |
发明(设计)人: | 吴飞;邵健;庄越挺;陈烨;朱科 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州求是专利事务所有限公司 | 代理人: | 张法高 |
地址: | 310027*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 社群 潜在 主题 挖掘 自动 图像 标注 方法 | ||
技术领域
本发明涉及图像的自动标注领域,尤其涉及一种基于社会共享网络的图像自动标注的方法。
背景技术
We随着网络和多媒体技术的迅猛发展,互联网上的图像数量呈爆炸性增长。据统计,2008年,Google已索引Web网页规模达到1万亿,其中图像数据超过几十亿张。近年来,共享网络引起了互联网用户的特别关注,在提供数字图像共享的大众标注网站Flickr上,其索引的图像已超过30亿张,并以每月几百万张的速度快速增长。
互联网用户为Flickr图像手工添加的图像标签信息为图像的高效管理和检索带来了极大便利。但是,通过对Flickr图像手工标注的结果进行深入分析发现,64%图像的标签均少于或等于3个。如何对大量无标签或者标签不足的图像自动添加或完善其所具有标签是当前研究的热点问题。
与普通图像不同,互联网共享图像具有如下几个特点:
·共享网络图像质量参差不齐,由不同用户通过不同相机在不同时间从不同的角度或使用不同拍照技巧拍摄得到;
·共享网络图像内容丰富,Flickr图像的标签词条已超过了1亿3千万条,涵盖了6千多万概念,囊括了风景、建筑、人物肖像、活动剪辑等多样的内容、事件和对象等等;
·共享网络图像语义复杂,一张图像往往同时包含多个不同的主题信息,比如一张图像可能既包含了“Sky”、“Clouds”等主题信息,同时也包含了“Water”、“River”等主题信息。
由于共享网络图像具有上述特点,因此难以使用传统算法对其进行有效标注。深入分析Flickr上的共享图像可发现一个显著特征:当用户根据时间、地点或者事件将图像上传到个人相册后,会进一步根据图像主题将其推荐到相应社群中去。Flickr中的社群是指包含某一特定主题的图像集合,当用户上传不符合社群主题的图像到社群上时,管理员会删除这些无关图像,这就保证了社群图像主题上的一致性。因此,可利用图像所在社群的主题信息对图像进行标注。同时,针对某一社群主题又可进一步细分为多个子主题的事实,可对社群进行隐含主题挖掘,然后结合图像视觉相似性最终取得更精细的标注结果。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于社群潜在主题挖掘的自动图像标注的方法。
基于社群潜在主题挖掘的自动图像标注的方法包括如下步骤:
1)采用隐狄利克雷分配模型对单个社群里的隐含主题进行挖掘;
2)通过对社群潜在主题分析得到图像标签和隐含主题的概率分布后,删除社群图像标签和隐含主题概率小于设定值k的图像标签来对社群图像标签进行“去噪”过滤;
3)通过相似图像标签传播产生待标注图像的图像候选标注标签;
4)根据图像候选标注标签与图像的隐含主题之间相关性对图像候选标注标签进行优化;
5)通过多社群信息融合得到图像最终标注结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910099916.6/2.html,转载请声明来源钻瓜专利网。