[发明专利]基于样本相似性排序建模实时评估系统状态的方法无效

申请号：	201310407396.7	申请日：	2013-09-10
公开（公告）号：	CN103440537A	公开（公告）日：	2013-12-11
发明（设计）人：	周伟宁;陈言;罗林发	申请（专利权）人：	上海白丁电子科技有限公司
主分类号：	G06Q10/04	分类号：	G06Q10/04;G06Q50/06
代理公司：	暂无信息	代理人：	暂无信息
地址：	201206 上海市浦***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于样本相似性排序建模实时评估系统状态方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及模式识别、软件开发领域，主要应用于发电站、化工工业等监控预警领域。

背景技术

随着20世纪40年代计算机的出现以及50年代人工智能的兴起，人们希望用计算机来代替或扩展人类的部分脑力劳动。

伴随着各种随身设备、互联网和云计算、云存储等技术的发展，在工厂设备的计算机自动监控系统中，所有的数据都可以被记录，包括设备本身的技术数据、设备运行的轨迹数据、设备工作时的环境数据等，数据的收集呈现出大爆炸的状态。如何挖掘利用这些海量的数据，面临着技术上的挑战。

从使用的角度来看，大数据还面临其他因素的挑战。由于各种数据的准确性不能够直观地得出，会导致数据价值大大降低。在工业设备实时数据采集的过程中，一些无法确定的因素也影响了数据的准确性。

由此计算机模式识别在20世纪60年代初迅速发展并成为一门新学科。模式识别(Pattern Recognition)是指对表征事物或现象的各种形式(数值、文字和逻辑关系)的信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释的过程，是信息科学和人工智能的重要组成部分。模式识别又常称作模式分类，从处理问题的性质和解决问题的方法等角度，模式识别分为有监督的分类（Supervised Classification）和无监督的分类(Unsupervised Classification)两种。二者的主要差别在于，各实验样本所属的类别是否预先已知。一般说来，有监督的分类往往需要提供大量已知类别的样本，但在实际操作过程中，存在一定困难的。

当模式识别、大数据处理等技术主要应用于发电站、化工工业等监控预警领域时，样本数量的大小将会直接影响模型对实时系统评估的鲁棒性，同时对模型估计的精确度、灵敏度也有相当的影响，因此对于样本如何压缩提取，很多方法难以在顾及鲁棒性的同时考虑模型的精确度、灵敏度。

发明内容

为解决上述问题，本发明公开一种基于样本相似性排序建模实时评估系统状态的方法，即从动态系统随时间进行而产生的实时状态数据中选取正常状态时的数据；基于相似性距离排序方法对正常状态样本数据进行排序，并选取符合条件的样本数据组成正常状态样本数据库；将动态系统中任一时间点产生的一组数据与样本库中的每一个样本进行相似性计算，产生一组相似权重值；根据相似权重值及系统状态确定规则，评估在此时间点该系统的状态。

一般从实际情况取出的正常状态样本数量N，比建立状态样本数据库所需要的样本数量M多很多，因而选取数据的方案对最后系统状态评估有很大的影响，故本发明涉及的基于样本相似性排序建模实时评估系统状态的方法，根据鲁棒性、精确性的要求确定模型中正常状态下的样本数量。

本发明所涉及的基于样本相似性排序建模实时评估系统状态的方法，采用以下步骤来解决背景技术中存在的技术问题：

1、确定取数的数量。在实时状态数据中，选取样本数量在状态向量变量数的3倍至4倍区间；其中所述状态向量变量数为需要监测的参数点的数据，如此确定的样本数量可以使相似性建模评估系统状态时，鲁棒性灵敏度相对折中，评估值准确性高。

2、由于样本空间中每一变量数量级不同，变化范围也不同，所以要将样本向量进行归一化处理。比如将向量X=[,,…]中各数值进行归一化，归一化后的值重新赋值给X，X=[,,…]。数据归一化处理方式有：

（1）、可以将每一变量的所有值相加，将此和值作为1处理，每一变量归一化后的值为该值除以和值。

，，，···

（2）、也可以在每一变量中取最大值为1，最小值为0，变量其他值为在此变量排序中相距最大最小值的距离决定。

，；

，，，···

3、将样本向量通过相似性距离进行排序。

相似性距离可以用以下距离公式计算：

（设两个向量为X=(x1,…,xn)，Y=(y1,…yn)）：