[发明专利]一种基于近邻自编码器的近邻异常检测系统在审
申请号: | 202011243520.7 | 申请日: | 2020-11-10 |
公开(公告)号: | CN112348090A | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 马帅;刘叔正 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 牛雅芳 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 近邻 编码器 异常 检测 系统 | ||
1.一种基于近邻自编码器的近邻异常检测系统,其特征在于:系统设计针对KNN的降维-检测框架,通过输入模块导入异常数据集,经过所述KNN的降维-检测框架运算后,通过输出模块输出异常数据集异常得分,从而判断输入数据集中的异常情况;
具体地,系统首先通过KD-tree计算每个数据点的K个近邻点组成的近邻集合,K∈[25,200],将近邻集合U、V和原始数据输入基于神经网路结构设计的近邻自编码器进行降维计算,集合U为某个数据点从1-近邻到m-近邻的m个数据点形成的集合;同理,集合V为某个数据点X的从(k-m+1)-近邻到K-近邻的m个数据点形成的集合,m∈[1,5],获得保持近邻关系的低维数据嵌入和每个点的重构误差,将数据嵌入和重构误差输入到K-重构-近邻检测器,得出异常分,所述近邻自编码器和所述K-重构-近邻检测器由参数选择方案确定其系统参数。
2.根据权利要求1所述的一种基于近邻自编码器的近邻异常检测系统,其特征在于:所述近邻自编码器的具体实现方式为:将自编码器在隐层中对近邻关系的刻画分为两个正则项:首先,将第一项正则项设置为点和原始近邻点的集合的的距离之和的相反数;其次,使用每个点的第K近邻的距离作为异常分,即K近邻的近邻关系需要保持不变,第二项正则项设置为在隐层中点和他原始K近邻的距离;
给定K近邻的参数K和范围超参数m,首先在原始空间中用KD-tree求出原始数据点的K个最近邻,设I是数据集中的一个原始数据点,K近邻的参数是K,U是I从1到M的近邻集合,V是点I从(K-m+1)到K的近邻集合,设集合U包含点I的1到m-最近邻,集合V包含点I的K-m+1到K-最近邻,将原始点和近邻集合分别输入近邻自编码器,通过原始点的重构误差和隐层内的近邻误差训练自编码器,
首先定义一个含有n层全连接层的编码器,
E(I)=fn(fn-1(...f1(I)))
其中每层全连接层的变换为,
其中X和B分别是第i层的属性权重和偏差,
解码器变换定义为,
D(E(I))=gn(gn-1(...g1(E(I))))
gi(X)=WX+B,i∈[1,n]
损失函数定义为,
Rj=(Ij-D(E(Ij)))2
在迭代训练NNAE后,获得原始数据的嵌入表示和每个数据的重构误差,
E(I)
R=I-D(E(I))。
3.根据权利要求2所述的一种基于近邻自编码器的近邻异常检测系统,其特征在于:所述K-重构-近邻检测器的实现方式为:定义一个数据点的第K近邻到它本身的距离为d,重构误差为r,整个数据集中最大的重构误差为rmax,最小的为rmin,KRNN的异常分为:
所述参数选择方案具体为:近邻自编码器由多层全连接层构成,层数参数设置为L,同时使用紧缩系数α描述网络形状,L∈[3,5,7,9],α∈[0.2,0.4,0.6,0.8],使用对称结构的自编码器,编码器和解码器的权重W和偏差B各自独立,但结构对称,隐层无激活函数,其他层间均使用sigmoid激活函数;选定有效结构参数L和α的方法为:首先定义集合N1为在数据集中通过NNAE获得的重构误差低于其他50%数据的点的集合,N2为重构误差高于其他95%数据的点的集合,则性能指标Z可以定义为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011243520.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车座椅部件的冲压模具
- 下一篇:一种旋翼桨叶形变测量数据采集设备