[发明专利]一种基于社团演化的组织行为异常检测方法在审
申请号: | 201610051992.X | 申请日: | 2016-01-26 |
公开(公告)号: | CN105608329A | 公开(公告)日: | 2016-05-25 |
发明(设计)人: | 程光权;韩养胜;黄金才;刘忠;谢福利;胡松超;马扬;李帅;修保新;冯旸赫;陈超 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 陈立新 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于社团演化的组织行为异常检测方法,其特征在于,包括基于EM算法的模糊社团划分、社团演化分析、异常子序列检测等步骤。本发明能够从中等的尺度描述组织变化,对组织成员地位、角色以及交互量和交互频率的改变,和组织演化的方向具有很高的敏感性,避免了从组织整体考察组织动态可能丧失的细节;能够通过调整子序列长度和邻域子序列个数,得到不同时间尺度的异常,且通过重构权值和重构误差构造的一致因子能够放大子序列与其邻域的差异,提高异常检测的分辨率和鲁棒性。 | ||
搜索关键词: | 一种 基于 社团 演化 组织 行为 异常 检测 方法 | ||
【主权项】:
一种基于社团演化的组织行为异常检测方法,其特征在于,包括以下步骤:步骤1基于EM算法的模糊社团划分步骤1.1提取节点特征向量网络的邻接矩阵取最大的p个特征值所对应的特征向量得到n×k的特征矩阵At,取特征矩阵的每一行作为对应节点的属性向量,则将每个节点都映射到了p维空间,n为网络节点个数,节点m的属性向量为![]()
步骤1.2EM算法划分社团对于组织成员集合v1,v2,…,vn,C1,C2,…,Ck为k个模糊社团,c1,c2,…,ck分别为社团C1,C2,…,Ck的社团中心,W=[wij](1≤i≤n,1≤j≤k)为划分矩阵,其中![]()
已知划分k个社团,模糊社团的划分利用EM算法实现,步骤如下:(1)初始化k个社团中心,划分矩阵;(2)期望步E‑步:计算每个成员对于每个社团的隶属度,得到划分矩阵W;(3)最大化步M‑步:根据上步得到的划分矩阵,调整社团中心
(4)迭代执行期望步和最大化步,直到达到设定迭代步数或社团中心收敛到期望范围或误差平方和小于设定阈值;步骤1.3社团数量确定设网络中节点集合N={v1,v2,…,vn},节点m的特征向量为
设r为所划分的社团个数,{C1,C2,…,Cr}为社团集合,ni为第i个社团的成员个数,社团Ci对应的节点N为
所对应的节点属性向量分别为
记![]()
![]()
其中lij表示第i个社团中第j个节点的属性向量,![]()
![]()
引入F统计量![]()
对给定的显著水平α和社团数量r,可查F分布表得到F1‑α(p(r‑1,n‑r)),如果F>F1‑α(p(r‑1,n‑r)),根据统计学理论可知社团间具有显著差异,说明分类比较合理;对于不同社团数量,在满足F>F1‑α(p(r‑1,n‑r))的所有的社团划分中,取使差值F‑F1‑α最大的社团数量作为最合理的社团数量,进而得到最佳的社团划分;步骤2社团演化分析步骤2.1组织角色聚类系数描述了节点邻域的边密度,组织中不同角色的交互模式往往能体现在聚类系数的差异上,故节点的局部聚类系数能够在一定程度上反映节点在网络中的地位和角色差异,网络中节点i的聚类系数定义如下![]()
其中Γi为节点i的邻域,即节点i及其所有直接邻构成的子图,E(Γi)表示Γi中边的数量,![]()
为Γi中所有节点互联时的边数量;步骤2.2组织角色熵假设组织网络G中共n个成员,并且网络中存在t种角色{j1,j1,…,j1},类比信息熵的定义,定义组织角色熵![]()
其中pk表示角色jk成员数量在组织中占的比例,即![]()
步骤2.3社团角色熵假设社团划分l将网络划分为m个社团,即{C1,C2,…,Cm},各个社团仍包含不同的角色。将各个社团看作子组织,定义社团角色熵![]()
其中
表示第i个社团在整个组织所占的比重,Em(G)是基于算法m对组织进行社团划分后识别成员角色所需的期望信息量;步骤3异常子序列检测步骤3.1确定参数给定长度为L的时间序列:X={x1,x2,…,xL}L为时间序列的长度,给定要检测的子序列长度为l,以l为窗口长度,其中l<<L;从x1开始截取子序列,一共可得到n=L‑l+1个长度为l的子序列,时间序列的l子序列Xj表示如下:Xj={xj,xj+1,…,xj+l‑1}对于子序列Xj,定义其p(p为偶数)邻域子序列为:![]()
其中每个元素都是原时间序列的l子序列,这里简记为![]()
L为子序列长度,p为邻域个数,其中l关系到异常子序列的分辨率,而p关系到异常作用的范围;步骤3.2建立子序列回归模型把Xj看作因变量l次观测值的集合,把Nbp(Xj)中的l子序列看作影响Xj的p个因素,为了衡量Xj与其邻域的一致程度,将Nbp(Xj)中的元素加权求和,重构子序列Xj如下:![]()
称
为Xj的邻域重构序列,其中p个邻域子序列参与重构的权值为![]()
该过程可用线性模型表达![]()
在这里εj是Xj的重构值和真实值的偏差,记![]()
则称
为子序列邻域回归模型;步骤3.3计算一致因子
是模型中第i个回归系数,也是Xj的第i个邻域子序列对其线性重构的权重,而每个子序列还对应着它参与重构其邻域的p子序列的p个权值,记为Xj的重构权值向量![]()
通过||Fj||和||εj||构造衡量子序列与其邻域一致性的一致因子,定义子序列Xj的一致因子![]()
本发明采用优化重构偏差的方法求解重构权值,将权值的归一化条件作为约束;设对Xj的重构结果为
自然地将对Xj的重构偏差定义为向量
与Xj的二范数,即![]()
其中![]()
优化问题定义如下![]()
![]()
上式中第一项为目标函数最小化重构偏差,第二项为重构权值归一化的约束,上述优化可得到Xj被重构的权值
以及最终的重构误差
对每个子序列Xi进行以上的最小二乘估计或优化过程,从所有被重构权值中得到Xi参与重构的p个权值,即回归系数
得到一致因子序列![]()
在子序列异常检测时,通过绘制子序列一致因子曲线,曲线的低谷值对应的子序列为异常子序列。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610051992.X/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用