[发明专利]一种基于社团演化的组织行为异常检测方法在审

申请号：	201610051992.X	申请日：	2016-01-26
公开（公告）号：	CN105608329A	公开（公告）日：	2016-05-25
发明（设计）人：	程光权;韩养胜;黄金才;刘忠;谢福利;胡松超;马扬;李帅;修保新;冯旸赫;陈超	申请（专利权）人：	中国人民解放军国防科学技术大学
主分类号：	G06F19/00	分类号：	G06F19/00
代理公司：	北京中济纬天专利代理有限公司 11429	代理人：	陈立新
地址：	410073 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于社团演化的组织行为异常检测方法，其特征在于，包括基于EM算法的模糊社团划分、社团演化分析、异常子序列检测等步骤。本发明能够从中等的尺度描述组织变化，对组织成员地位、角色以及交互量和交互频率的改变，和组织演化的方向具有很高的敏感性，避免了从组织整体考察组织动态可能丧失的细节；能够通过调整子序列长度和邻域子序列个数，得到不同时间尺度的异常，且通过重构权值和重构误差构造的一致因子能够放大子序列与其邻域的差异，提高异常检测的分辨率和鲁棒性。
搜索关键词：	一种基于社团演化组织行为异常检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于社团演化的组织行为异常检测方法，其特征在于，包括以下步骤：步骤1基于EM算法的模糊社团划分步骤1.1提取节点特征向量网络的邻接矩阵取最大的p个特征值所对应的特征向量得到n×k的特征矩阵A_t，取特征矩阵的每一行作为对应节点的属性向量，则将每个节点都映射到了p维空间，n为网络节点个数，节点m的属性向量为

<mrow><msub><mi>l</mi><mi>m</mi></msub><mo>=</mo><mrow><mo>(</mo><msubsup><mover><mi>a</mi><mo>~</mo></mover><mi>m</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mover><mi>a</mi><mo>~</mo></mover><mi>m</mi><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msubsup><mo>,</mo><mo>...</mo><mo>,</mo><msubsup><mover><mi>a</mi><mo>~</mo></mover><mi>m</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow></msubsup><mo>)</mo></mrow></mrow>

步骤1.2EM算法划分社团对于组织成员集合v₁,v₂,…,v_n，C₁,C₂,…,C_k为k个模糊社团，c₁,c₂,…,c_k分别为社团C₁,C₂,…,C_k的社团中心，W＝[w_ij](1≤i≤n,1≤j≤k)为划分矩阵，其中

<mrow><msub><mi>w</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>=</mo><mfrac><mfrac><mn>1</mn><mrow><mi>d</mi><mi>i</mi><mi>s</mi><mi>t</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>i</mi></msub><mo>,</mo><msub><mi>c</mi><mi>j</mi></msub><mo>)</mo></mrow></mrow></mfrac><mrow><munderover><mo>Σ</mo><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>k</mi></munderover><mfrac><mn>1</mn><mrow><mi>d</mi><mi>i</mi><mi>s</mi><mi>t</mi><mrow><mo>(</mo><msub><mi>v</mi><mi>i</mi></msub><mo>,</mo><msub><mi>c</mi><mi>t</mi></msub><mo>)</mo></mrow></mrow></mfrac></mrow></mfrac></mrow>

已知划分k个社团，模糊社团的划分利用EM算法实现，步骤如下：(1)初始化k个社团中心，划分矩阵；(2)期望步E‑步：计算每个成员对于每个社团的隶属度，得到划分矩阵W；(3)最大化步M‑步：根据上步得到的划分矩阵，调整社团中心(4)迭代执行期望步和最大化步，直到达到设定迭代步数或社团中心收敛到期望范围或误差平方和小于设定阈值；步骤1.3社团数量确定设网络中节点集合N＝{v₁,v₂,…,v_n}，节点m的特征向量为设r为所划分的社团个数，{C₁,C₂,…,C_r}为社团集合，n_i为第i个社团的成员个数，社团C_i对应的节点N为所对应的节点属性向量分别为记

<mrow><msub><mi>T</mi><mi>i</mi></msub><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>i</mi></msub></munderover><msub><mi>l</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>,</mo><mi>i</mi><mo>=</mo><mn>1</mn><mo>,</mo><mn>2</mn><mo>,</mo><mo>...</mo><mo>,</mo><mi>r</mi></mrow>

<mrow><msub><mi>Q</mi><mn>1</mn></msub><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></munderover><msub><mi>T</mi><mi>i</mi></msub><mo>,</mo><msub><mi>Q</mi><mn>2</mn></msub><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></munderover><munderover><mo>Σ</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>i</mi></msub></munderover><msubsup><mi>l</mi><mrow><mi>i</mi><mi>j</mi></mrow><mi>T</mi></msubsup><msub><mi>l</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub></mrow>

其中l_ij表示第i个社团中第j个节点的属性向量，

<mrow><msub><mi>S</mi><mi>A</mi></msub><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>r</mi></munderover><mfrac><mrow><msubsup><mi>T</mi><mi>i</mi><mi>T</mi></msubsup><msub><mi>T</mi><mi>i</mi></msub></mrow><msub><mi>n</mi><mi>i</mi></msub></mfrac><mo>-</mo><mfrac><msubsup><mi>Q</mi><mn>1</mn><mn>2</mn></msubsup><mi>n</mi></mfrac></mrow>

<mrow><msub><mi>S</mi><mi>e</mi></msub><mo>=</mo><msub><mi>Q</mi><mn>2</mn></msub><mo>-</mo><mfrac><mrow><msubsup><mi>Q</mi><mn>1</mn><mi>T</mi></msubsup><msub><mi>Q</mi><mn>1</mn></msub></mrow><mi>n</mi></mfrac><mo>-</mo><msub><mi>S</mi><mi>A</mi></msub></mrow>

引入F统计量

<mrow><mi>F</mi><mo>=</mo><mfrac><mrow><msub><mi>S</mi><mi>A</mi></msub><mo>/</mo><mrow><mo>(</mo><mi>r</mi><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow><mrow><msub><mi>S</mi><mi>e</mi></msub><mo>/</mo><mrow><mo>(</mo><mi>n</mi><mo>-</mo><mi>r</mi><mo>)</mo></mrow></mrow></mfrac><mover><mo>~</mo><mrow><mi>H</mi><mn>0</mn></mrow></mover><mi>F</mi><mrow><mo>(</mo><mi>p</mi><mo>(</mo><mrow><mi>r</mi><mo>-</mo><mn>1</mn><mo>,</mo><mi>n</mi><mo>-</mo><mi>r</mi></mrow><mo>)</mo><mo>)</mo></mrow></mrow>

对给定的显著水平α和社团数量r，可查F分布表得到F_1‑α(p(r‑1,n‑r))，如果F>F_1‑α(p(r‑1,n‑r))，根据统计学理论可知社团间具有显著差异，说明分类比较合理；对于不同社团数量，在满足F>F_1‑α(p(r‑1,n‑r))的所有的社团划分中，取使差值F‑F_1‑α最大的社团数量作为最合理的社团数量，进而得到最佳的社团划分；步骤2社团演化分析步骤2.1组织角色聚类系数描述了节点邻域的边密度，组织中不同角色的交互模式往往能体现在聚类系数的差异上，故节点的局部聚类系数能够在一定程度上反映节点在网络中的地位和角色差异，网络中节点i的聚类系数定义如下

<mrow><msub><mover><mi>C</mi><mo>~</mo></mover><mi>i</mi></msub><mo>=</mo><mfrac><mrow><mo>|</mo><mi>E</mi><mrow><mo>(</mo><msub><mi>Γ</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>|</mo></mrow><mfenced open = '(' close = ')'><mtable><mtr><mtd><msub><mi>k</mi><mi>i</mi></msub></mtd></mtr><mtr><mtd><mn>2</mn></mtd></mtr></mtable></mfenced></mfrac></mrow>

其中Γ_i为节点i的邻域，即节点i及其所有直接邻构成的子图，E(Γ_i)表示Γ_i中边的数量，

<mrow><mfenced open = '(' close = ')'><mtable><mtr><mtd><msub><mi>k</mi><mi>i</mi></msub></mtd></mtr><mtr><mtd><mn>2</mn></mtd></mtr></mtable></mfenced><mo>=</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msub><mi>k</mi><mi>i</mi></msub><mrow><mo>(</mo><msub><mi>k</mi><mi>i</mi></msub><mo>-</mo><mn>1</mn><mo>)</mo></mrow></mrow>

为Γ_i中所有节点互联时的边数量；步骤2.2组织角色熵假设组织网络G中共n个成员，并且网络中存在t种角色{j₁,j₁,…,j₁}，类比信息熵的定义，定义组织角色熵

<mrow><msub><mi>E</mi><mi>h</mi></msub><mrow><mo>(</mo><mi>G</mi><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munderover><mo>Σ</mo><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>t</mi></munderover><msub><mi>p</mi><mi>k</mi></msub><msub><mi>log</mi><mn>2</mn></msub><msub><mi>p</mi><mi>k</mi></msub></mrow>

其中p_k表示角色j_k成员数量在组织中占的比例，即

<mrow><msub><mi>p</mi><mi>k</mi></msub><mo>=</mo><mfrac><mrow><mo>|</mo><msub><mi>j</mi><mi>k</mi></msub><mo>|</mo></mrow><mi>n</mi></mfrac></mrow>

步骤2.3社团角色熵假设社团划分l将网络划分为m个社团，即{C₁,C₂,…,C_m}，各个社团仍包含不同的角色。将各个社团看作子组织，定义社团角色熵

<mrow><msub><mi>E</mi><mi>m</mi></msub><mrow><mo>(</mo><mi>G</mi><mo>)</mo></mrow><mo>=</mo><mo>-</mo><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><mfrac><mrow><mo>|</mo><msub><mi>C</mi><mi>i</mi></msub><mo>|</mo></mrow><mi>n</mi></mfrac><mo>×</mo><msub><mi>E</mi><mi>h</mi></msub><mrow><mo>(</mo><msub><mi>C</mi><mi>i</mi></msub><mo>)</mo></mrow></mrow>

其中表示第i个社团在整个组织所占的比重，E_m(G)是基于算法m对组织进行社团划分后识别成员角色所需的期望信息量；步骤3异常子序列检测步骤3.1确定参数给定长度为L的时间序列：X＝{x₁,x₂,…,x_L}L为时间序列的长度，给定要检测的子序列长度为l，以l为窗口长度，其中l＜＜L；从x₁开始截取子序列，一共可得到n＝L‑l+1个长度为l的子序列，时间序列的l子序列X_j表示如下：X_j＝{x_j,x_j+1,…,x_j+l‑1}对于子序列X_j，定义其p(p为偶数)邻域子序列为：

<mrow><mi>N</mi><mi>b</mi><mi>p</mi><mi>N</mi><mi>b</mi><mi>p</mi><mrow><mo>(</mo><msub><mi>X</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mfenced open = '{' close = ''><mtable><mtr><mtd><mrow><mo>{</mo><msub><mi>X</mi><mn>2</mn></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>X</mi><mrow><mi>p</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>}</mo><mo>,</mo></mrow></mtd><mtd><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow></mtd></mtr><mtr><mtd><mrow><mo>{</mo><msub><mi>X</mi><mn>1</mn></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>X</mi><mrow><mi>j</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>X</mi><mrow><mi>j</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>X</mi><mrow><mi>P</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>}</mo><mo>,</mo></mrow></mtd><mtd><mrow><mn>1</mn><mo><</mo><mi>j</mi><mo><</mo><mn>1</mn><mo>+</mo><mi>p</mi><mo>/</mo><mn>2</mn></mrow></mtd></mtr><mtr><mtd><mrow><mo>{</mo><msub><mi>X</mi><mrow><mi>j</mi><mo>-</mo><mi>p</mi><mo>/</mo><mn>2</mn></mrow></msub><mo>,</mo><msub><mi>X</mi><mrow><mi>j</mi><mo>-</mo><mi>p</mi><mo>/</mo><mn>2</mn><mo>+</mo><mn>1</mn></mrow></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>X</mi><mrow><mi>j</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>X</mi><mrow><mi>j</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>X</mi><mrow><mi>j</mi><mo>+</mo><mi>p</mi><mo>/</mo><mn>2</mn></mrow></msub><mo>}</mo><mo>,</mo></mrow></mtd><mtd><mrow><mn>1</mn><mo>+</mo><mi>p</mi><mo>/</mo><mn>2</mn><mo>≤</mo><mi>j</mi><mo>≤</mo><mi>n</mi><mo>-</mo><mi>p</mi><mo>/</mo><mn>2</mn></mrow></mtd></mtr><mtr><mtd><mrow><mo>{</mo><msub><mi>X</mi><mrow><mi>n</mi><mo>-</mo><mi>p</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>X</mi><mrow><mi>j</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>X</mi><mrow><mi>j</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>X</mi><mi>n</mi></msub><mo>}</mo><mo>,</mo></mrow></mtd><mtd><mrow><mi>n</mi><mo>-</mo><mi>p</mi><mo>/</mo><mn>2</mn><mo><</mo><mi>j</mi><mo><</mo><mi>n</mi></mrow></mtd></mtr><mtr><mtd><mrow><mo>{</mo><msub><mi>X</mi><mrow><mi>n</mi><mo>-</mo><mi>p</mi></mrow></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>X</mi><mrow><mi>n</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>}</mo><mo>,</mo></mrow></mtd><mtd><mrow><mi>j</mi><mo>=</mo><mi>n</mi></mrow></mtd></mtr></mtable></mfenced></mrow>

其中每个元素都是原时间序列的l子序列，这里简记为

<mrow><mi>N</mi><mi>b</mi><mi>p</mi><mrow><mo>(</mo><msub><mi>X</mi><mi>j</mi></msub><mo>)</mo></mrow><mo>=</mo><mo>{</mo><msubsup><mi>X</mi><mi>j</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mo>,</mo><msubsup><mi>X</mi><mi>j</mi><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msubsup><mo>,</mo><mo>,</mo><msubsup><mi>X</mi><mi>j</mi><mrow><mo>(</mo><mi>p</mi><mo>)</mo></mrow></msubsup><mo>}</mo></mrow>

L为子序列长度，p为邻域个数，其中l关系到异常子序列的分辨率，而p关系到异常作用的范围；步骤3.2建立子序列回归模型把X_j看作因变量l次观测值的集合，把Nbp(X_j)中的l子序列看作影响X_j的p个因素，为了衡量X_j与其邻域的一致程度，将Nbp(X_j)中的元素加权求和，重构子序列X_j如下：