[发明专利]一种基于社团演化的组织行为异常检测方法在审

申请号：	201610051992.X	申请日：	2016-01-26
公开（公告）号：	CN105608329A	公开（公告）日：	2016-05-25
发明（设计）人：	程光权;韩养胜;黄金才;刘忠;谢福利;胡松超;马扬;李帅;修保新;冯旸赫;陈超	申请（专利权）人：	中国人民解放军国防科学技术大学
主分类号：	G06F19/00	分类号：	G06F19/00
代理公司：	北京中济纬天专利代理有限公司 11429	代理人：	陈立新
地址：	410073 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于社团演化组织行为异常检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于社团演化的组织行为异常检测方法，其特征在于，包括以下步骤：

步骤1基于EM算法的模糊社团划分

步骤1.1提取节点特征向量

网络的邻接矩阵取最大的p个特征值所对应的特征向量得到n×k的特征矩阵A_t，取特征矩阵的每一行作为对应节点的属性向量，则将每个节点都映射到了p维空间，n为网络节点个数，节点m的属性向量为

lm=(a~m(1),a~m(2),...,a~m(p))]]>

步骤1.2EM算法划分社团

对于组织成员集合v₁,v₂,…,v_n，C₁,C₂,…,C_k为k个模糊社团，c₁,c₂,…,c_k分别为社团C₁, C₂,…,C_k的社团中心，W＝[w_ij](1≤i≤n,1≤j≤k)为划分矩阵，其中

wij=1dist(vi,cj)Σt=1k1dist(vi,ct)]]>

已知划分k个社团，模糊社团的划分利用EM算法实现，步骤如下：

(1)初始化k个社团中心，划分矩阵；

(2)期望步E-步：计算每个成员对于每个社团的隶属度，得到划分矩阵W；

(3)最大化步M-步：根据上步得到的划分矩阵，调整社团中心

(4)迭代执行期望步和最大化步，直到达到设定迭代步数或社团中心收敛到期望范围或误差平方和小于设定阈值；

步骤1.3社团数量确定

设网络中节点集合N＝{v₁,v₂,…,v_n}，节点m的特征向量为设r为所划分的社团个数，{C₁,C₂,…,C_r}为社团集合，n_i为第i个社团的成员个数，社团C_i对应的节点N为所对应的节点属性向量分别为

记

Ti=Σj=1nilij,i=1,2,...,r]]>

Q1=Σi=1rTi,Q2=Σi=1rΣj=1nilijTlij]]>

其中l_ij表示第i个社团中第j个节点的属性向量，

SA=Σi=1rTiTTini-Q12n]]>

Se=Q2-Q1TQ1n-SA]]>

引入F统计量

F=SA/(r-1)Se/(n-r)~H0F(p(r-1,n-r))]]>

对给定的显著水平α和社团数量r，可查F分布表得到F_1-α(p(r-1,n-r))，如果F>F_1-α(p (r-1,n-r))，根据统计学理论可知社团间具有显著差异，说明分类比较合理；对于不同社团数量，在满足F>F_1-α(p(r-1,n-r))的所有的社团划分中，取使差值F-F_1-α最大的社团数量作为最合理的社团数量，进而得到最佳的社团划分；

步骤2社团演化分析

步骤2.1组织角色

聚类系数描述了节点邻域的边密度，组织中不同角色的交互模式往往能体现在聚类系数的差异上，故节点的局部聚类系数能够在一定程度上反映节点在网络中的地位和角色差异，网络中节点i的聚类系数定义如下

C~i=|E(Γi)|ki2]]>

其中Γ_i为节点i的邻域，即节点i及其所有直接邻构成的子图，E(Γ_i)表示Γ_i中边的数量，ki2=12ki(ki-1)]]>为Γ_i中所有节点互联时的边数量；

步骤2.2组织角色熵

假设组织网络G中共n个成员，并且网络中存在t种角色{j₁,j₁,…,j₁}，类比信息熵的定义，定义组织角色熵

Eh(G)=-Σk=1tpklog2pk]]>

其中p_k表示角色j_k成员数量在组织中占的比例，即

pk=|jk|n]]>

步骤2.3社团角色熵

假设社团划分l将网络划分为m个社团，即{C₁,C₂,…,C_m}，各个社团仍包含不同的角色。将各个社团看作子组织，定义社团角色熵

Em(G)=-Σi=1m|Ci|n×Eh(Ci)]]>

其中表示第i个社团在整个组织所占的比重，E_m(G)是基于算法m对组织进行社团划分后识别成员角色所需的期望信息量；

步骤3异常子序列检测

步骤3.1确定参数

给定长度为L的时间序列：

X＝{x₁,x₂,…,x_L}

L为时间序列的长度，给定要检测的子序列长度为l，以l为窗口长度，其中l＜＜L；从x₁开始截取子序列，一共可得到n＝L-l+1个长度为l的子序列，时间序列的l子序列X_j表示如下：

X_j＝{x_j,x_j+1,…,x_j+l-1}

对于子序列X_j，定义其p(p为偶数)邻域子序列为：

NbpNbp(Xj)={X2,...,Xp+1},j=1{X1,...,Xj-1,Xj+1,...,XP+1},1<j<1+p/2{Xj-p/2,Xj-p/2+1,...,Xj-1,Xj+1,...,Xj+p/2},1+p/2≤j≤n-p/2{Xn-p-1,...,Xj-1,Xj+1,...,Xn},n-p/2<j<n{Xn-p,...,Xn-1},j=n]]>

其中每个元素都是原时间序列的l子序列，这里简记为

Nbp(Xj)={Xj(1),Xj(2),,Xj(p)}]]>

L为子序列长度，p为邻域个数，其中l关系到异常子序列的分辨率，而p关系到异常作用的范围；

步骤3.2建立子序列回归模型

把X_j看作因变量l次观测值的集合，把Nbp(X_j)中的l子序列看作影响X_j的p个因素，为了衡量X_j与其邻域的一致程度，将Nbp(X_j)中的元素加权求和，重构子序列X_j如下：

X^j=Σi=1pwj(i)Xj(i)]]>

称为X_j的邻域重构序列，其中p个邻域子序列参与重构的权值为

Wj={wj(1),wj(2),...,wj(p)}]]>

该过程可用线性模型表达

Xj(i)=wj(1)(i)Xj(1)(i)+...+wj(p)(i)Xj(p)(i)+ϵj(i),i=1,2,...,l]]>

在这里ε_j是X_j的重构值和真实值的偏差，记

Xj=Xj(1)Xj(2)...Xj(l),NXj=Xj(1)(1)Xj(2)(1)...Xj(p)(1)Xj(1)(2)Xj(2)(2)...Xj(p)(2)............Xj(1)(l)Xj(2)(l)...Xj(p)(l),Wj=wj(1)wj(2)...wj(p),ϵj=ϵj(1)ϵj(2)...ϵj(l)]]>