[发明专利]图片搜索设备、方法及系统有效
申请号: | 201310492161.2 | 申请日: | 2013-10-18 |
公开(公告)号: | CN103559220B | 公开(公告)日: | 2017-08-25 |
发明(设计)人: | 何锐邦;唐会军 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京智汇东方知识产权代理事务所(普通合伙)11391 | 代理人: | 康正德,范晓斌 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图片 搜索 设备 方法 系统 | ||
技术领域
本发明涉及互联网领域,具体涉及一种建立图片主题库的设备、一种图片搜索设备、一种建立图片主题库的方法、一种图片搜索方法以及一种图片搜索系统。
背景技术
图片搜索是通过搜索程序,向用户提供互联网上相关的图片资料的服务。从所使用的技术上来分类,可分为基于上下文文本的搜索和基于图片内容的搜索。基于上下文文本的搜索是通过图片在网页中的属性(以下简称alt)等标签信息来建立索引,从而进行搜索。基于图片内容的搜索是提取图片本身的视觉特征,来匹配搜索请求。视觉特征又可分为通用的视觉特征和领域相关的视觉特征。
基于图片内容的搜索方法是传统的图片搜索方法中常用的一种方法。这种方法分析每张图片的内容,提取图片自身的特征,如颜色、纹理、形状等等。然后以图片自身的这些特征作为索引,建立特征到图片的数据库。当用户搜索图片时,将用户输入的搜索词与数据库中的特征索引进行相似度计算,然后按相似度从高到低的顺序展现对应图片。
但是这种方法有很大的缺陷。首先,这种方法只能进行精确的特征搜索,不能进行模糊的搜索。但实际的产品体验上用户输入的搜索词在大多数情况下并不能做到十分精确。例如用户输入“圆形”,而实际数据库中的是“椭圆形”。这样由于搜索条件太严格,用户输入的搜索词无法与数据库中的特征索引达到比较大的相似度,导致无法搜索到目的图片。其次由于数据库中的特征索引是明确的,很难穷举所有同义索引,也就是无法建立数据库把所有同义特征都作为该图片的索引,导致对于同义词特征的搜索会有遗漏。例如用户输入“土豆”,而实际数据库中的是“马铃薯”。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的建立图片主题库的设备和图片搜索设备以及一种图片搜索系统和相应的建立图片主题库的方法和图片搜索的方法。
依据本发明的一个方面,提供了一种建立图片主题库的设备,包括:
图片源库,配置为存储至少一张图片以及该图片的上下文文本;
图形信息获取器,配置为从所述图片源库中读取图片,对每张图片进行图形特征分析,获取其图形特征信息,并将该图形特征信息转化为图形特征文本;
文本组合器,配置为对于每张图片,将获取的图形特征文本和该图片的上下文文本相组合以生成文本描述,每个文本描述包括多个文本描述词;
主题确定器,配置为根据各图片的文本描述建立至少一个主题,生成图片主题库,其中,每个主题库中包括多个与本主题相关的文本描述词,并且确定每个文本描述词所属的主题以及属于该主题的概率,以及与每个图片的文本描述相关联的主题以及与该主题相关联的概率。
可选地,所述主题确定器还配置为使用LDA算法或LSA算法建立各主题。
可选地,所述LSA算法为PLSA算法。
可选地,所述文本组合器还配置为:对任意图片而言,罗列该图片的图形特征文本以及该图片的上下文文本;对罗列结果进行排重,将排重后的图形特征文本以及上下文文本要组合,生成图片的文本描述。
可选地,上下文文本为html语句。
根据本发明的另一个方面,提供了一种图片搜索设备,包括:
信息接收器,配置为接收用户输入的搜索词;
主题转化器,配置为从信息接收器获取所述搜索词,并根据主题库来确定该搜索词所属主题及其概率分布,其中,所述主题库中存储有多个主题以及每个主题的概率分布情况,每个主题包括多个与本主题相关的文本描述词;
图片相似度计算器,配置为根据类似的概率分布来确定与该搜索词相似程度超过一定比例的图片。
可选地,所述图片搜索设备还包括:显示器,配置为显示所述图片相似度计算器确定出的图片。
可选地,所述显示器还配置为根据相似程度从高到低显示所述图片相似度计算器确定出的图片。
根据本发明的另一个方面,提供了一种图片搜索系统,包括所述建立图片主题库的设备以及所述图片搜索设备。
根据本发明的另一个方面,提供了一种建立图片主题库的方法,包括:
获取多张图片;
分别对每张图片进行处理,获取其图形特征信息和上下文文本;
将图形特征信息转化为图形特征文本,结合该图片的上下文文本以及转化生成的图形特征文本生成该图片的文本描述;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310492161.2/2.html,转载请声明来源钻瓜专利网。