[发明专利]一种同款业务对象聚合、搜索的方法和系统在审
申请号: | 201310167405.X | 申请日: | 2013-05-08 |
公开(公告)号: | CN104142946A | 公开(公告)日: | 2014-11-12 |
发明(设计)人: | 邓宇;欧海峰 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/54;G06K9/62 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 赵娟 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 业务 对象 聚合 搜索 方法 系统 | ||
技术领域
本申请实施例涉及数据搜索的技术领域,特别是涉及一种同款业务对象聚合的方法、一种同款业务对象聚合的系统、一种搜索方法和一种搜索系统。
背景技术
近年来,随着互联网的高速发展,网上的信息量急剧增加,其中包含了大量的图像信息。随着各种图像处理工具的普及,图像的缩放、裁剪、添加水印等处理都给图像造成形式上的变化,但图像内容实质上却基本相同。过量的重叠图像信息使得人们在信息检索的时候要进行繁琐的人工过滤,耗费时间和精力。
例如,在垂直搜索环境中,用户通过网站进行某一业务对象(比如商品)搜索时,同款业务对象,即属性(例如,业务对象的图像、业务对象的名称、或业务对象的描述等)完全或几乎相同的业务对象,在单次搜索结果中,有很大几率会被展示多次。同款业务对象的重复展示降低了网站主提供信息的效率和用户获取信息的效率。
目前,同款业务对象的聚合可以利用业务对象的类型、参数或名称等方式来进行。但是当业务对象的类型、参数及名称等信息缺失或这些信息不足以进行不同款业务对象的类型的区分时,往往需要靠人工来甄别、聚合。特别的,由于在网络环境中发布的商品的类型和数量都在高速增长中,人工挑选同款商品的方式在时间和人力成本上越来越高,以至于无法承受。
因此,目前需要本领域技术人员迫切解决的一个技术问题就是:在信息搜索引擎中,如何在互联网发布的海量商品信息中,将内容相同或相似的产品聚合为同一款业务对象的类型,以提高信息搜索的效率。
申请内容
本申请实施例所要解决的技术问题是提供一种同款业务对象聚合及一种搜索方法,能够基于业务对象的图像内容生成数字签名,并能进行快速验证,用以实现海量商品中同款业务对象的聚合,在保证聚合效果的同时,提高聚合速度,将此应用于搜索领域,提高信息搜索的效率。
相应的,本申请实施例还提供了一种同款业务对象聚合的系统及一种搜索系统,用以保证上述方法的实现及应用。
为了解决上述问题,本申请公开了一种同款业务对象聚合的方法,包括:
获取业务对象的图像;
根据所述图像的视觉特征生成所述图像的数字签名;
采用所述图像及其对应的数字签名建立图像签名库;
依据所述数字签名将图像签名库中的图像划分为多个分组;
基于所述多个分组计算所述图像的相似度;
按照所述相似度对所述图像进行聚类,形成一个或多个图像集合;
将属于同一图像集合的图像对应的业务对象合并为同款业务对象。
较佳地,所述根据图像的视觉特征生成所述图像的数字签名的步骤包括:
分别提取所述图像的视觉特征;所述视觉特征包括颜色特征,和/或,梯度特征,和/或,局部特征;
将所述视觉特征进行归一化,组合为对应图像的数字签名。
较佳地,所述颜色特征包括针对每张图像的一个或多个主颜色,以及,所述主颜色在当前图像中对应的像素点个数,当所述视觉特征包括颜色特征时,所述分别提取图像的视觉特征的步骤包括:
获得在预设颜色空间中量化的颜色维度;
遍历所述图像中各像素点的颜色值,查找与所述各像素点的颜色值归属的颜色维度;其中,所述各像素点的颜色值归属的颜色维度为与各像素点的颜色值距离最近的颜色维度;
统计各颜色维度在所述图像中对应的像素点个数,选择一个或多个像素点个数最多的颜色维度作为当前图像的主颜色;
获得所述主颜色在当前图像中对应的像素点个数;
和/或,
当所述视觉特征包括梯度特征时,所述分别提取图像的视觉特征的步骤包括:
将所述图像转化为灰度图像,并对所述灰度图像进行平滑;
依据所述平滑后的灰度图像计算所述图像的梯度方向直方图;
采用所述梯度方向直方图及其对应的像素点个数作为当前图像的梯度特征;
和/或,
当所述视觉特征包括局部特征时,所述分别提取图像的视觉特征的步骤包括:
提取所述图像中具有旋转不变性和尺度不变性的特征点;
计算所述特征点的对比度变量,选取对比度变量大于预设第一门限值的特征点拼接成所述图像的局部特征。
较佳地,所述依据平滑后的灰度图像计算所述图像的梯度方向直方图的子步骤进一步包括:
针对平滑后的灰度图像,计算每一像素点的梯度方向和梯度幅值;
对当前图像做梯度方向统计,生成当前图像的以梯度方向为横轴的直方图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310167405.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:文件分类系统及方法
- 下一篇:一种分布式数据存取方法、装置和系统