[发明专利]一种基于自然语言特征提取有效告警数据的方法在审
申请号: | 201911095317.7 | 申请日: | 2019-11-11 |
公开(公告)号: | CN112784592A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 何毅鹏;葛艳芳 | 申请(专利权)人: | 四川睿象科技有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610000 四川省成都市中国(四川)自*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 特征 提取 有效 告警 数据 方法 | ||
本发明公开了一种基于自然语言特征提取有效告警数据的方法,包括局部敏感hash模块和编辑距离算法模块,所述局部敏感hash算法模块包括分词模块,hash模块,加权模块,合并模块,降维模块;所述分词模块给定一段语句,进行分词,得到有效的特征向量,然后为每一个特征向量设置1‑5等5个级别的权重;所述hash模块通过hash函数计算各个特征向量的hash值;所述加权模块在hash值的基础上,给所有特征向量进行加权;所述合并模块将各特征向量的加权结果累加,变成只有一个序列串;所述降维模块用于得到语句的simhash值;所述编辑距离算法模块将hash值进行相似度聚类。
技术领域
本发明涉及特种设备技术领域,具体为一种基于自然语言特征提取有效告警数据的方法。
背景技术
传统运维体系的接入告警方式纷繁复杂,各类业务监控平台发送的告警类型格式没有标准,当各类运维监控平台将海量的告警发出后告警的有效性就变得尤为重要,一般正常情况下自然人能够处理的告警数量在每分钟3条左右,如果大量的告警出现频率过高就会形成告警风暴导致远远超过自然人处理的极限就会出现关键告警丢失现象,导致关键问题处理滞后,就会出现严重的生产事故等问题。
当前现有的实现方案包括:告警门限设置一般采用流量管控的方式,当告警数据在门限下时告警接收平台会接收全部告警做正常处理,门限数据超过最大限制就会丢弃部分告警信息,丢弃周期一般在分钟级别。
现有技术1,告警去重处理模式:告警数据流入后对首条告警记录告警规则值,记录规则值后后续所有的告警将进行规则匹配运算,相同告警不在进行通知,不同告警生成新的规则集,以上操作反复执行。
通过以上技术实现现有缺陷:匹配规则生成数量较多严重影响性能问题;告警风暴降临后当告警每秒处理量达到千条级别时匹配规则会造成大量的时间延时,最高延时可能会超过5-10分钟,大量告警处理过程滞后会导致出现应用系统出现灾难级故障。
现有技术2,告警门限处理模式:提前定义系统能够处理的最大告警数量,一般采用的模式是单位时间内接收的告警数量,计数单位告警笔数/每秒,如果超过告警最大处理上限后,大量告警将不再接收,在网络接收层开始丢弃。
通过以上技术实现现有缺陷:有效告警处理范围内系统处理告警正常,当告警处理门限值超限后系统不在接收告警,后续出现的不同种类的告警用户将无法正常接收,如果出现关键告警丢弃将导致后续处理中断,导致问题定位的依据丢失,应用系统有可能会出现毁灭性故障。
发明内容
本发明的目的在于主要通过AI智能算法,在海量的告警数据中快速提取有效的核心告警内容,将处理后的数据在用户可接受的时间范围提交给最终使用用户。
为实现上述目的,本发明提供如下技术方案:一种基于自然语言特征提取有效告警数据的方法,包括局部敏感hash模块和编辑距离算法模块,所述局部敏感hash算法模块包括分词模块,hash模块,加权模块,合并模块,降维模块;所述分词模块给定一段语句,进行分词,得到有效的特征向量,然后为每一个特征向量设置1-5等5个级别的权重;所述hash模块通过hash函数计算各个特征向量的hash值;所述加权模块在hash值的基础上,给所有特征向量进行加权;所述合并模块将各特征向量的加权结果累加,变成只有一个序列串;所述降维模块用于得到语句的simhash值;所述编辑距离算法模块将hash值进行相似度聚类。
优选地,所述权重的等级越大,代表重要程度越重要。
优选地,所述hash值为二进制数01组成的n-bit签名。
优选地,所述给特征向量进行加权,为W=hash*weight,且遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘。
优选地,所述得到语句的simhash值为对于n-bit签名的累加结果,如果大于0则置1,否则置0,因此可以根据不同语句simhash的海明距离来判断它们的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川睿象科技有限公司,未经四川睿象科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911095317.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种复合肥生产用冷却设备
- 下一篇:一种环境污染治理用土壤样本采集装置