[发明专利]一种面向通信网络的用户行为模式挖掘方法及系统有效
申请号: | 201410030664.2 | 申请日: | 2014-01-22 |
公开(公告)号: | CN103744994B | 公开(公告)日: | 2016-11-16 |
发明(设计)人: | 时金桥;柳厅文;李全刚 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 通信 网络 用户 行为 模式 挖掘 方法 系统 | ||
技术领域
本发明涉及通信网络、复杂网络和异常检测等领域,尤其涉及一种面向通信网络的用户行为模式挖掘方法及系统。
背景技术
通信网络是指人们之间的信息交流而形成的网络的统称,邮件通信网络、短信通信网络、电话通信网络等都是典型的通信网络。在现代社会中,通信网络已全面渗透到人们的日常生活中,通信网络中包含了人们日常作息时间、工作生活习惯、社交关系、工作性质等诸多十分有价值信息。
以邮件网络为例,挖掘邮件用户通信行为模式并分析其演变过程对检测邮件数据泄漏等邮件网络事件具有重要意义。通常由于邮件已加密或者隐私问题而无法获得完整的邮件内容,在此考虑仅利用邮件网络的日志信息如何来挖掘用户的通信行为模式。邮件通信日志记录了人们的通信关系、通信频率、通信时间等许多有价值的信息。利用邮件日志来学习用户在邮件通信中的行为模式,继而可以挖掘出用户的社交关系网、生活习惯、工作性质等社会属性。通过对用户行为模式的分析可为组织机构的信息安全防护工作提供重要依据。例如通过对不同个体的通信行为模式进行横向对比能够发现那些“特立独行”的人;对个体行为模式的纵向分析可以发现个体行为的异常变动。利用这些异常可以帮助相关人员缩小排查范围,有利于快速发现并定位内部人员的不轨行为,对于组织内部威胁的检测及计算机取证等工作都有着重要的指导意义。
邮件通信行为模式是指人们在邮件通信过程中所体现出的个体或群体间重复出现的通信特征集合。组织机构的邮件日志中隐含了许多与内部员工 的工作性质、日常行为习惯、生活作息时间等有关的信息。如何挖掘这类信息并有效地利用这些信息是人们十分关注的问题。
人们通常将某组织机构的邮件网络视为一个完整的社交网络,然后提取一些网络结构特征,利用社交网络分析的方法来挖掘用户行为模式,但是该方法忽略了组织机构邮件网络外部通信信息的缺失问题,这会影响到某些特征的准确性。并且以往的研究大多数直接用相关特征来表示将用户的行为模式,但如果提取的相关特征较多时这种“相关特征-行为模式”二元对应关系往往导致用户模式形式多样,用户量大的情况下不利于用户间的模式对比。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种面向通信网络的用户行为模式挖掘方法及系统,以提高用户行为模式分析的准确性并统一用户行为模式的表示。
本发明解决上述技术问题的技术方案如下:一种面向通信网络的用户行为模式挖掘方法,包括如下步骤:
步骤1:按照不同时期对通信网络数据进行划分,得到一系列网络快照G={G1,G2,…,GT};
步骤2:确定在网络快照中的活跃度高于预定阈值的用户为研究对象,记录研究对象个数为N;
步骤3:确定M个与研究对象相关的相关特征,并根据相关特征计算每个网络快照的特征矩阵
步骤4:根据所有网络快照的特征矩阵(t=1,2,...T)计算基准特征矩阵
步骤5:对基准特征矩阵和每个网络快照的特征矩阵做标准化处理,得到标准化基准特征矩阵A和相应的每个网络快照的标准化特征矩阵At;
步骤6:利用非负矩阵分解算法分解标准化基准特征矩阵A得到模元矩阵W和系数矩阵H;
步骤7:利用每个网络快照的标准化特征矩阵At和模元矩阵W计算每个网络快照中所有研究对象的行为模式矩阵Ht(t=1,2,...T)。
本发明的有益效果是:本发明采用“相关特征-模元-行为模式”的三元对应关系表示用户行为模式,为用户的通信行为模式提供统一的表示方法,在用户量大的情况下用户间的模式对比清晰明了,有助于方便正确地检测数据集中用户行为模式的变化情况;用户的行为模式可以表示为模元空间中的向量,这样就为用户的行为模式提供了统一的描述准则,降低了模式表述的复杂性。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述用户的行为模式以“相关特征-模元-行为模式”的三元对应关系表示,其中所述模元为基本行为模式单元,代表通信网络中基本行为。
进一步,步骤2中活跃度等级为通信网络中通信节点作为发信者在各快照中出现的频度,进而确定研究对象的具体实现为:按照用户的活跃度进行排序,选择活跃度前θ%的用户作为研究对象,其中θ为预定值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410030664.2/2.html,转载请声明来源钻瓜专利网。