[发明专利]一种用于机器学习分析的大数据信息处理方法及系统在审
申请号: | 202010220896.X | 申请日: | 2020-03-25 |
公开(公告)号: | CN111581439A | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 孟庆海 | 申请(专利权)人: | 北方工业大学 |
主分类号: | G06F16/90 | 分类号: | G06F16/90;G06F16/906;G06N20/00 |
代理公司: | 深圳市行一知识产权代理事务所(特殊普通合伙) 44453 | 代理人: | 杨贤 |
地址: | 100043 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 机器 学习 分析 数据 信息处理 方法 系统 | ||
本发明公开了一种用于机器学习分析的大数据信息处理方法及系统,该方法包括:获取原始用户数据,将所述原始用户数据与规则树进行匹配,生成用户元数据集合;将所述用户元数据集合与分布特征一致性模板进行匹配,生成映射特征组;利用机器学习算法对所述映射特征组进行分析,生成数据分布规律结果;根据所述数据分布规律结果,实现大数据相关应用。该方法能够保护用于机器学习分析的用户数据,提高用户数据的安全性。
技术领域
本发明涉及大数据技术领域,具体是一种用于机器学习分析的大数据信息处理方法及系统。
背景技术
基于大数据的信息分析技术近年来日益普及到我们生活的各个方面,通过大数据分析能够发现数据之间潜在的关联规律,提高信息分析的准确率和效率,增强预测精度。特别是通过对用户数据(例如用户消费数据、银行交易数据、移动轨迹和位置数据等)的大数据分析,能够发现用户的特点和偏好,提供针对性和个性化的服务。
特别是随着各种机器学习(例如聚类算法、神经网络、贝叶斯、回归分析等)的发展应用,利用机器学习实现大数据信息的分析和挖掘,其分析的数据量级和效率得到了本质上的飞跃,而且能够从大数据中挖掘深度的、潜在的的规律。
机器学习的原理,和人类的学习方式有很大的区别,机器学习并不需要理解大数据中包含信息的真实含义,而是对数据进行多个维度的分布特征的提取,再进行特征的统计归类等,最终获得大数据蕴含的规律性。
但是,用户数据中存在大量的敏感信息,一旦泄露会严重损害用户的安全和利益,降低公众对数据运营方的信赖感。而进行大数据信息分析,往往要通过网络设备传输、存储海量的用户数据,数据安全方面的风险比较高。目前,应对这方面风险的主要手段是进行用户数据的加密,或者施加各种模糊化、匿名化的处理,但是都不能很好的解决该问题,例如加密的用户数据也有可能被破解,或者是模糊化的用户数据有可能造成大数据分析过程中规律提取的障碍。
因此,如何保护用于机器学习分析的用户数据,提高用户数据的安全性是本领域技术人员亟待解决的问题。
发明内容
鉴于上述问题,本发明的目的是为了解决进行大数据信息分析需要通过网络设备传输、存储海量的用户数据,数据安全方面的风险比较高的问题。
本发明实施例提供一种用于机器学习分析的大数据信息处理方法,包括:
获取原始用户数据,将所述原始用户数据与规则树进行匹配,生成用户元数据集合;
将所述用户元数据集合与分布特征一致性模板进行匹配,生成映射特征组;
利用机器学习算法对所述映射特征组进行分析,生成数据分布规律结果;
根据所述数据分布规律结果,实现大数据相关应用。
在一个实施例中,所述获取原始用户数据,将所述原始用户数据与规则树进行匹配,生成用户元数据集合,包括:
基于专家知识,构建规则树;
将所述原始用户数据中的文本内容与所述规则树的字段名、描述关键词进行检索对比,提取所述原始数据中的用户元数据;
利用所述规则树的逻辑关系组织所述用户源数据,生成用户源数据集合。
在一个实施例中,所述将所述用户元数据与分布特征一致性模板进行匹配,生成映射特征组,包括:
获取所述分布特征一致性模板中每个分布特征单元的价值估值;
将所述用户元数据集合与所述分布特征一致性模板进行匹配,生成所述用户元数据集合与所述分布特征一致性模板中每个分布特征单元的匹配度;
根据所述价值估值与所述匹配度,确定所述用户元数据集合的映射特征值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北方工业大学,未经北方工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010220896.X/2.html,转载请声明来源钻瓜专利网。