[发明专利]数据处理方法、装置和系统在审
申请号: | 201810911756.X | 申请日: | 2018-08-10 |
公开(公告)号: | CN110874385A | 公开(公告)日: | 2020-03-10 |
发明(设计)人: | 赵康;潘攀;任小枫 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 褚敏;宋子良 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 系统 | ||
1.一种数据处理方法,包括:
获取用户输入的查询向量,其中,所述查询向量为经过二值化所处理得到的向量;
基于聚类中心点和所述查询向量之间的第一海明距离,得到与所述查询向量对应的第一向量集合,其中,所述聚类中心点是对向量库中采样向量进行聚类得到的;
基于所述查询向量和所述第一向量集合中每个向量之间的第二海明距离,得到查询结果。
2.根据权利要求1所述的方法,还包括:
对所述向量库中所有向量进行降采样处理和中心点初始化处理,得到所述采样向量和初始中心点;
基于所述初始中心点对所述采样向量进行聚类,得到所述聚类中心点。
3.根据权利要求2所述的方法,其中,基于所述初始中心点对所述采样向量进行聚类,得到所述聚类中心点,包括:
获取所述采样向量中每个向量与所述初始中心点之间的第三海明距离;
基于所述第三海明距离,确定所述初始中心点对应的第二向量集合;
将所述第二向量集合中所有向量按照维度进行比较,得到新的中心点;
将所述新的中心点作为所述初始中心点,并返回执行获取所述采样向量中每个向量与所述初始中心点之间的第三海明距离的步骤,直至当前迭代次数到达预设迭代次数,确定所述新的中心点为所述聚类中心点。
4.根据权利要求3所述的方法,其中,将所述第二向量集合中所有向量按照维度进行比较,得到新的中心点,包括:
获取所述第二向量集合中每个向量在每个维度上的向量值,其中,所述向量值为0或1;
获取所述每个维度上数量最多的向量值,得到所述新的中心点在所述每个维度上的向量值。
5.根据权利要求1所述的方法,其中,基于聚类中心点和所述查询向量之间的第一海明距离,得到与所述查询向量对应的第一向量集合,包括:
获取所述聚类中心点和所述查询向量之间的第一海明距离;
按照所述第一海明距离对所述聚类中心点进行排序,得到排序后的聚类中心点;
基于所述排序后的聚类中心点和倒排列表,得到满足第一预设条件的聚类中心点,其中,所述倒排列表包括:所述聚类中心点和所述聚类中心点对应的向量的标识信息;
基于所述满足第一预设条件的聚类中心点、所述倒排列表和向量表,得到所述第一向量集合,其中,所述向量表包括:所述向量库中所有向量和对应的标识信息。
6.根据权利要求5所述的方法,其中,基于所述排序后的聚类中心点和倒排列表,得到满足第一预设条件的聚类中心点,包括:
从所述倒排列表中获取所述排序后的聚类中心点中前n个聚类中心点对应的向量的数量,其中,所述n为自然数;
对所述前n个聚类中心点对应的向量的数量进行统计,得到总数量;
在所述总数量满足预设数量的情况下,确定所述前n个聚类中心点为所述满足第一预设条件的聚类中心点;
在所述总数量不满足所述预设数量的情况下,返回执行获取前n+1个聚类中心点对应的向量的数量的步骤,直至第n+1个聚类中心点为所述排序后的聚类中心点中最后一个聚类中心点。
7.根据权利要求5所述的方法,其中,所述方法还包括:
利用所述聚类中心点对所述向量库中所有向量进行打标,得到打标后的向量;
基于所述聚类中心点和所述打标后的向量的标识信息,得到所述倒排列表;
基于所述打标后的向量和对应的标识信息,得到所述向量表。
8.根据权利要求7所述的方法,其中,基于所述打标后的向量和对应的标识信息,得到所述向量表,包括:
按照所述聚类中心点对所述打标后的向量进行排序,得到排序后的向量;
基于所述排序后的向量和对应的标识信息,得到所述向量表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810911756.X/1.html,转载请声明来源钻瓜专利网。