[发明专利]一种数据分析的方法和装置在审
申请号: | 201710266253.7 | 申请日: | 2017-04-21 |
公开(公告)号: | CN108733714A | 公开(公告)日: | 2018-11-02 |
发明(设计)人: | 王丹;徐峰;李文科;韩贞阳 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;姜劲 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型识别 评估结果 重用 样本 方法和装置 交集 数据分析 样本数据 原始数据 增量评估 增量样本 工作效率 评估过程 数量确定 自适应 抽取 过滤 消耗 评估 分析 | ||
本发明提供一种数据分析的方法和装置,能够解决在评估过程中的消耗人力多以及工作效率低的问题。该方法包括:根据过滤函数从原始数据中确定出第一模型识别结果与第二模型识别结果,然后确定出第一模型识别结果与第二模型识别结果的交集;根据交集以及抽取的样本数量确定出自适应样本数量;根据自适应样本数量从第一模型识别结果中确定出重用样本数据和重用样本数据所对应的重用评估结果,以及从第二模型识别结果中确定出增量样本数据;对增量样本数据进行评估,以确定出增量评估结果,并以重用评估结果和增量评估结果为最终评估结果对原始数据进行分析。
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据分析的方法和装置。
背景技术
数据分析一般分为分析和评估两部分,将原始数据分析出一个模型后,再对模型进行抽样评估,当评估的结果有异常后,又会返回到分析流程修改现有模型,然后再次进入评估流程。经过分析和评估流程之间的多次重复后,才能得到可靠的模型。数据分析具体来说就是,用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
数据评估/数据标注:逐条对数据进行分析,标注其正负样本的过程。
抽样:又称取样,从欲研究的全部样品中抽取一部分样品单位,其基本要求是要保证所抽取的样品单位对全部样品具有充分的代表性。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
每次的评估过程都是对一个全新的样本集合进行分析,从而导致每次评估都需要耗费同样多的人力,降低了工作效率。
发明内容
有鉴于此,本发明实施例提供一种数据分析的方法和装置,能够解决在评估过程中的消耗人力多以及工作效率低的问题。
为实现上述目的,根据本发明实施例的一个方面,提供了一种数据分析的方法。
本发明实施例的数据分析的方法包括:根据过滤函数从原始数据中确定出第一模型识别结果与第二模型识别结果,然后确定出第一模型识别结果与第二模型识别结果的交集;根据交集以及抽取的样本数量确定出自适应样本数量;根据自适应样本数量从第一模型识别结果中确定出重用样本数据和重用样本数据所对应的重用评估结果,以及从第二模型识别结果中确定出增量样本数据;对增量样本数据进行评估,以确定出增量评估结果,并以重用评估结果和增量评估结果为最终评估结果对原始数据进行分析。
可选地,本发明的实施例根据交集以及抽取的样本数量确定出自适应样本数量,包括:
其中,表示原始数据的集合,表示第一模型的分析条件,表示第二模型的分析条件,表示从第一模型识别结果抽取的样本数量,表示从第二模型识别结果抽取的样本数量,表示按照的分析条件对集合进行过滤得到的第一模型识别结果的集合,表示按照的分析条件对集合进行过滤得到的第二模型识别结果的集合,表示集合与集合的交集中的元素的个数。
可选地,本发明的实施例在根据自适应样本数量从第一模型识别结果中确定出重用样本数据和重用样本数据所对应的重用评估结果,以及从第二模型识别结果中确定出增量样本数据的步骤之前,还包括:根据抽样函数从第一模型识别结果中确定出第一样本数据,以及从第二模型识别结果中确定出第二样本数据,其中,第一样本数据中包括重用样本数据,第二样本数据中包括增量样本数据;并且,根据自适应样本数量从第一模型识别结果中确定出重用样本数据和重用样本数据所对应的重用评估结果,以及从第二模型识别结果中确定出增量样本数据的步骤包括:从第一样本数据中确定出与自适应样本数量相同的重用样本数据,从第一模型识别结果的评估结果中确定出重用评估结果;根据样本数量以及自适应样本数量,从第二模型识别结果中确定出增量样本数据。
为实现上述目的,根据本发明实施例的另一方面,提供了一种数据分析的装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710266253.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据仓库中的数据查询方法及装置
- 下一篇:建筑物出入口位置的确定方法及装置