[发明专利]一种数据处理的方法和装置有效

申请号：	202011341059.9	申请日：	2020-11-25
公开（公告）号：	CN112487262B	公开（公告）日：	2023-05-26
发明（设计）人：	陆祺;张胜言;赖婉英;梁继平	申请（专利权）人：	中国建设银行股份有限公司
主分类号：	G06F16/906	分类号：	G06F16/906;G06F16/90
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	张一军;郭晗
地址：	100033 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种数据处理的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：能够通过从多个数据源采集待挖掘用户的用户数据，基于用户数据的唯一标识，利用数据分析模型确定用户的关联数据，并利用数据分类模型计算各个用户的分数值，从而根据分数值选取目标用户，降低了整合用户数据所消耗的人力资源成本，提高了挖掘目标用户的准确率和工作效率。

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据处理的方法和装置。

背景技术

在企业信息化管理中，数据处理和挖掘成为必不可少的环节，例如工商管理部门需要从海量个体工商户的数据中，挖掘和寻找出转型升级的优质个体工商户，以响应国家工商总局提出的促进优质个体工商户向规范的企业和公司方向发展的指导意见，以实现优化经济结构的目标。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

在现有个体工商户的数据挖掘的方案中，数据挖掘和分析局限于分析工商管理部门现有的个体工商户的登记数据，并且登记数据的格式也是固定的(例如：EXCEL表格)，由于个体工商户的发展和规模变化较快，数年后的数据与登记数据通常有较大差异，存在利用工商管理部门现有的登记数据进行数据分析和挖掘优质个体工商户的准确率偏低的问题，同时为了获得更新的数据，需要人工对个体工商户的数据进行采集和更新，提高了人力资源成本。

发明内容

有鉴于此，本发明实施例提供一种数据处理的方法和装置，能够通过从多个数据源采集待挖掘用户的用户数据，基于用户数据的唯一标识，利用数据分析模型确定用户的关联数据，并利用数据分类模型计算各个用户的分数值，从而根据分数值选取目标用户，提高了挖掘目标用户的准确率和工作效率，降低了整合用户数据所消耗的人力资源成本。

为实现上述目的，根据本发明实施例的一个方面，提供了一种数据处理的方法，其特征在于，包括：从多个不同类别的数据源采集待挖掘用户的用户数据；聚合所述用户数据，并将所述用户数据处理为同类别用户数据集合；利用数据分布模型计算所述用户数据集合中的所述用户数据的数据分布，根据所述数据分布选择数据分析模型；利用所述数据分析模型，从所述用户数据集合中确定关联于用户唯一标识的特征数据；其中，所述用户唯一标识包含于所述用户数据；根据所述特征数据，利用分类器模型，确定所述特征数据对应的待挖掘用户是否为目标用户。

可选地，所述数据处理的方法，其特征在于，

所述用户数据至少还包括所述待挖掘用户对应的行业类别、金融数据、税务数据、耗能数据。

可选地，所述数据处理的方法，其特征在于，

从多个不同类别的数据源采集待挖掘用户的用户数据，包括：

在采集所述用户数据时，所述不同类别的数据源为加密文件；其中，所述数据源包括：所述唯一标识归属的数据源、所述金融数据归属的数据源、所述税务数据归属的数据源、所述耗能数据归属的数据源、所述行业类别归属的数据源。

可选地，所述数据处理的方法，其特征在于，

聚合所述用户数据，将所述用户数据处理为同类别的用户数据集合，包括：

解密并读取采集到的来自不同类别的数据源的所述用户数据，对所述用户数据进行去除异常数据或者去重操作，生成同类别的所述用户数据集合。

可选地，所述数据处理的方法，其特征在于，

所述数据分布模型包括：集中趋势分析模型、离中趋势分析模型、统计分析模型中的任意一种或多种。

可选地，所述数据处理的方法，其特征在于，

所述数据分析模型包括：方差分析模型、相关性分析模型、回归分析模型、因子分析模型中的任意一种或多种。