[发明专利]一种日志分类方法及系统在审
申请号: | 201910898890.5 | 申请日: | 2019-09-23 |
公开(公告)号: | CN110633371A | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | 翟建军;陈青民;邢亚君;孟铭;郑敏波;彭海龙 | 申请(专利权)人: | 北京安信天行科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06F11/30 |
代理公司: | 11569 北京高沃律师事务所 | 代理人: | 刘凤玲 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 日志 分类 初始聚类中心 日志类别 特征库 模糊 系统运行分析 相似度确定 分类结果 聚类中心 文本特征 冗余 聚类 运维 便利 | ||
1.一种日志分类方法,其特征在于,所述方法包括:
获取待分类日志集,所述待分类日志集包括多个日志;
提取各所述日志的文本特征,形成日志集特征库;
根据所述日志集特征库,采用模糊C均值聚类方法对所述日志集中的各所述日志进行聚类划分,其中,所述模糊C均值聚类方法的初始聚类中心是根据各所述日志之间的相似度确定的,所述初始聚类中心的数量与分类完成后日志类别数的差值大于类别阈值。
2.根据权利要求1所述的方法,其特征在于,所述采用模糊C均值聚类方法对所述日志集中的各所述日志进行聚类划分,具体包括:
获取初始聚类数量q和误差阈值;
初始化q个聚类中心;
根据所述聚类中心和所述聚类数目,通过迭代计算下一次迭代的聚类中心,直至相邻两次迭代的目标函数值之间的变化量小于所述误差阈值,获得最终的q个聚类中心;
根据q个所述聚类中心将所述日志集中的各个日志划分为q类,获得q个日志簇;
根据各所述日志簇的类间相似度和聚类中心相似度对q个所述日志簇进行合并。
3.根据权利要求2所述的方法,其特征在于,所述初始化q个聚类中心包括:
获取聚类中心的期望数量和类间的最小相似度阈值;
计算各所述日志间的相似度;
筛选出相似度最大的两个日志作为目标日志;
将两个所述目标日志的中点作为一个聚类中心;
筛选出与所述目标日志的相似度均小于所述相似度阈值的所有日志,形成子日志集;
将所述子日志集中相似度最大的两个日志作为新的目标日志;
将两个所述目标日志的中点作为一个聚类中心;
判断当前的聚类中心数量是否等于聚类中心的期望数量q;
若否,返回所述筛选出与所述目标日志的相似度均小于所述相似度阈值的所有日志;
若是,将q个所述聚类中心作为初始聚类中心。
4.根据权利要求2所述的方法,其特征在于,所述根据各所述日志簇的类间相似度和聚类中心相似度对q个所述日志簇进行合并,具体包括:
获取各所述日志簇、类中心阈值和类间阈值;
计算各所述日志簇的聚类中心的相似度和各所述日志簇的相似度;
将聚类中心的相似度小于所述类中心阈值,且日志簇的相似度小于所述类间阈值的日志簇合并,形成新的日志簇集,返回所述计算各所述日志簇的聚类中心的相似度和各所述日志簇的相似度。
5.一种日志分类系统,其特征在于,所述系统包括:
日志集获取模块,用于获取待分类日志集,所述待分类日志集包括多个日志;
特征提取模块,用于提取各所述日志的文本特征,形成日志集特征库;
聚类模块,用于根据所述日志集特征库,采用模糊C均值聚类方法对所述日志集中的各所述日志进行聚类划分,其中,所述模糊C均值聚类方法的初始聚类中心是根据各所述日志之间的相似度确定的,所述初始聚类中心的数量与分类完成后日志类别数的差值大于类别阈值。
6.根据权利要求5所述的系统,其特征在于,所述聚类模块包括:
数据获取单元,用于获取初始聚类数量q和误差阈值;
初始化单元,用于初始化q个聚类中心;
迭代计算单元,用于根据所述聚类中心和所述聚类数目,通过迭代计算下一次迭代的聚类中心,直至相邻两次迭代的目标函数值之间的变化量小于所述误差阈值,获得最终的q个聚类中心;
聚类单元,用于根据q个所述聚类中心将所述日志集中的各个日志划分为q类,获得q个日志簇;
合并单元,用于根据各所述日志簇的类间相似度和聚类中心相似度对q个所述日志簇进行合并。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京安信天行科技有限公司,未经北京安信天行科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910898890.5/1.html,转载请声明来源钻瓜专利网。