[发明专利]数据仓库的指标检测方法、装置和系统在审
申请号: | 201910086600.7 | 申请日: | 2019-01-29 |
公开(公告)号: | CN111488269A | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 朱成生;王榕;俞飞江 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F11/36 | 分类号: | G06F11/36 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 谢湘宁;张文华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据仓库 指标 检测 方法 装置 系统 | ||
1.一种数据仓库的指标检测方法,包括:
如果检测到数据仓库中存在需要判重的指标,获取所述需要判重的指标的实体样本,并获取全量指标数据源,其中,所述实体样本用于记录所述需要判重的指标及对应的实体,所述全量指标数据源为预先设置的指标库中的所有指标及对应的实体;
使用迭代碰撞分析模型,对所述实体样本和所述全量指标数据源进行迭代碰撞处理,识别出所述需要判重的指标是否为重复指标。
2.根据权利要求1所述的方法,其中,使用迭代碰撞分析模型,对所述实体样本和所述全量指标数据源进行迭代碰撞处理,识别出所述需要判重的指标是否为重复指标,包括:
将所述实体样本和所述全量指标数据源进行迭代碰撞分析,得到至少一个第一指标;
获取所述至少一个第一指标中与所述需要判重的指标匹配成功的至少一个第二指标;
对所述第二指标进行二次验证,如果验证成功,则确定所述需要判重的指标为重复指标。
3.根据权利要求2所述的方法,其中,将所述实体样本和所述全量指标数据源进行迭代碰撞分析,得到至少一个第一指标,包括:
在所述实体样本以第一矩阵的形式存储的情况下,对所述实体样本进行分层抽样处理,得到抽样得到的第二矩阵;
在所述全量指标数据源以第三矩阵的形式存储的情况下,从所述全量指标数据源中抽取出与所述第二矩阵中具有相同实体的指标,生成第四矩阵;
将所述第二矩阵中每个实体与所述第四矩阵中相应实体进行迭代碰撞分析,得到所述至少一个第一指标。
4.根据权利要求3所述的方法,其中,在对所述实体样本进行分层抽样处理,得到抽样得到的第二矩阵之前,所述方法还包括:
对所述实体样本中所述需要判重的指标的指标值进行分布分析处理,得到所述实体样本的指标分布;
基于所述实体样本的指标分布对所述实体样本进行分层抽样处理,得到所述第二矩阵,其中,所述第二矩阵的指标分布与所述实体样本的指标分布一致。
5.根据权利要求3所述的方法,其中,将所述第二矩阵中每个实体与所述第四矩阵中相应实体进行迭代碰撞分析,得到所述至少一个第一指标,包括:
获取所述需要判重的指标的指标类型;
在所述指标类型为字符的情况下,对所述第二矩阵中每个实体对应的指标和所述第四矩阵中相应实体对应的指标进行文本相似度处理,得到所述第一指标;
在所述指标类型为数值的情况下,对所述第二矩阵中每个实体对应的指标的指标值和所述第四矩阵中相应实体对应的指标的指标值进行精度转换处理,并基于转换后的第二矩阵和转换后的第四矩阵,得到所述第一指标。
6.根据权利要求5所述的方法,其中,对所述第二矩阵中每个实体对应的指标和所述第四矩阵中相应实体对应的指标进行文本相似度处理,得到所述第一指标,包括:
对所述第二矩阵中每个实体对应的指标和所述第四矩阵中相应实体对应的指标进行向量化处理,得到第一向量矩阵和第二向量矩阵;
获取所述第一向量矩阵中每个实体对应的指标与所述第二向量矩阵中相应实体对应的指标的相似度;
获取所述第二向量矩阵中相似度大于相似度阈值的指标,得到所述第一指标。
7.根据权利要求5所述的方法,其中,对所述第二矩阵中每个实体对应的指标的指标值和所述第四矩阵中相应实体对应的指标的指标值进行精度转换处理,包括:
获取所述需要判重的指标的精度阈值;
基于所述精度阈值,对所述第二矩阵中每个实体对应的指标的指标值和所述第四矩阵中相应实体对应的指标的指标值进行精度转换处理。
8.根据权利要求5所述的方法,其中,基于转换后的第二矩阵和转换后的第四矩阵,得到所述第一指标,包括:
基于所述转换后的第二矩阵中每个实体对应的指标的指标值,以及所述转换后的第四矩阵中相应实体对应的指标的指标值,判断所述转换后的第二矩阵中每个实体对应的指标和所述转换后的第四矩阵中相应实体对应的指标是否一致;
如果一致,则确定所述转换后的第四矩阵中相应的指标为所述第一指标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910086600.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于生成页面的方法和装置
- 下一篇:扫地机器人故障检测方法、装置和扫地机器人