[发明专利]一种基于机器学习的物联网非结构化大数据分析算法在审

申请号：	202010301205.9	申请日：	2020-04-16
公开（公告）号：	CN111539465A	公开（公告）日：	2020-08-14
发明（设计）人：	侯瑞;赵云灏;胡杨;任国文;李建彬;刘欢;常亮;刘佳悦;任羽圻;方苏婉;袁梦	申请（专利权）人：	华北电力大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N20/00
代理公司：	北京宝护知识产权代理有限公司 11703	代理人：	张晓凯
地址：	102206***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于机器学习联网结构数据分析算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于机器学习的物联网非结构化大数据分析算法，包括以下步骤：1)构建大数据平台，并获取在线客户在前端输入的非结构化原始数据；2)根据前端接收的非结构化原始数据，客户终端后台对非结构化原始数据进行预处理，以进行后台数据挖掘；3)去除非结构化原始数据的冗余及有噪声的垃圾数据，得非结构化数据样本；4)基于机器学习的物联网非结构化大数据分析算法对非结构化数据样本进行聚类并对预测模型进行推理及训练，然后利用训练后的预测模型进行预测，并将预测结果输出，该方法能够利用基于机器学习算法实现物联网非结构化大数据的分析。

技术领域

本发明涉及一种物联网非结构化大数据分析算法，具体涉及一种基于机器学习的物联网非结构化大数据分析算法。

背景技术

机器学习是当前计算机科学和人工智能学科的一个研究热点。行业没有统一定义“机器学习”的标准，但是机器学习通常是人类认知过程和学习过程的模型，结合计算机的计算能力来执行人类行为模拟。获取新知识或技能算法。它使用先前的知识和培训数据来指导学习，并不断调整现有的知识结构以提高其绩效。近年来，许多机器学习算法在工程实践和科学研究中得到了广泛应用。如聚类(数据聚类)、SVM(支持向量机)、SVM(非线性回归)、神经网络(神经网络)、遗传算法(遗传算法)等。无论是语音识别、信用监控、风险预测等。，或大数据集的数据挖掘，机器学习算法起着不可替代的实际指导作用。机器学习在大数据研究中扮演着重要角色。例如，谷歌在文本处理方面的成功归功于机器学习，而在构建大数据存储仓库时，神经网络、监督和无监督学习领域的大量知识被用来使用Hadoop集群。同时，亚马逊的产品推荐系统也是大数据和机器学习的结合。用于大数据分析的深度分析也基于统计分析和机器学习。

机器学习的发展主要包括两个研究方向。首先，研究学习机制。学习机制的主要研究重点是机器学习技术的研究。随着大数据环境的发展变化，数据分析在社会许多领域的发展中都有很高的应用要求。通过机器学习，可以快速获取相应的知识，促进机器技术的发展。在大数据开发环境下，机器学习应突出学习的重要作用，逐步扩大机器学习的实际范围，在机器学习的基础上进行数据分析，高效处理不同的数据信息，明确机器学习的基本目标。第二，研究信息的合理应用。重点是从大量填充的数据管理存储库中找到更有价值的信息。在大数据开发环境中，数据生成效率逐渐提高，数据的总体数量和类型发生了重大变化。除了深入分析各类重要的新数据行，如文本数据分析、内容搜索图像和图像数据处理等，使机器学习研究朝着多元化的方向全面发展。目前，合理选择半监督学习方法，加强训练数据质量，提高学习能力，是相关部门关注的关键问题。大数据是人工智能的基础，将大数据转化为知识或生产力与机器学习密不可分。可以说机器学习是人工智能的核心，是保证机器拥有人类智能的根本途径。机器学习的任务是发现包含在大量数据中的有用信息。它处理的数据越多，机器学习就越能显示出它的优势。这个问题可以通过提供大数据或大大提高性能来解决，如语言识别、图像设计、天气预报等。

k近邻学习方法根据一定的规则将相似的数据样本分成一个类别。在机器学习算法中，最近邻学习方法的基本思想是首先提取待分类或测试的新数据的特征，并将其与原始样本中每个数据的特征进行比较。然后从比较结果中选择K个最接近的样本数据，并计算哪K个样本数据出现的次数。那么什么样的数据应该被分类。c类w1、w2、...，wc模式识别问题，每种类型都有一个Ni类样本(i\\u003d 1，2，...，c)。可以指定wi的判别函数是:

对于未知样本x，只需比较已知类别的x和N样本之间的马氏距离:

其中m和C分别是S的均值和协方差矩阵。确定x与最接近它的样本相同。该算法简单易懂，无需建模和训练，易于实现，适用于稀有事件的分类，适用于多分类问题。然而，该算法也有缺点。该算法是一个具有大内存开销的懒惰算法。测试样本分类时，计算量大，性能低。可解释性差，不能给出决策树和其他规则。支持向量机算法是经典的机器学习算法之一，在理论分析和实际应用中都取得了良好的效果。直线用于将数据分为两类。这条线用作线性判别函数，记录为:

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华北电力大学，未经华北电力大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010301205.9/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于机器学习的物联网非结构化大数据分析算法在审

专利文献下载