[发明专利]一种基于众包和机器学习的web漏洞验证方法有效
申请号: | 201811498958.2 | 申请日: | 2018-12-08 |
公开(公告)号: | CN111291376B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 陈振宇;臧晓杰;仲逸秋;于越;房春荣;张欣 | 申请(专利权)人: | 深圳慕智科技有限公司 |
主分类号: | G06F21/57 | 分类号: | G06F21/57 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518000 广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 web 漏洞 验证 方法 | ||
1.一种基于众包和机器学习的web漏洞验证方法,其特征是使用自然语言分析及聚类分析,通过对众包人员提交的漏洞验证报告进行分析后确定web漏洞是否为误报,具体步骤为:
1)收集漏洞验证报告:收集众包人员提交的漏洞验证报告;
2)预处理漏洞验证报告,过滤不符合格式的漏洞验证报告,具体分为以下两个子步骤:
2a)根据规定的标准格式,即{R,C,S,L }四个维度是否具备,对不符合标准格式的报告进行过滤;
2b)过滤无关报告:由人工生成一个同义词集合,即将指代同一对象的不同词语作为一个集合,用同义词集合中的一个词语替换漏洞验证报告中含有的该同义词集合中的其他词语;对符合格式的报告中用于重现场景的属于自然语言叙述的部分,通过同义词替换后,将每份报告中的关键字进行提取后进行词频统计,过滤所有关键字词频出现次数均为0的报告;
3)对漏洞验证报告聚类分析:
根据步骤2)得到的经有效性筛选后的漏洞验证报告,进行基于{R,C,S,L }四个维度欧式距离的聚类分析,通过无黄金标准数据参考下的聚类密度相连最大集来确定众包漏洞验证的最终结果:
3a)漏洞验证报告统一格式为{R,C,S,L}格式,其中R为总体性结果判断,分为是否为漏洞两种选项结果;C为漏洞类别,包括已提供多种选项和可扩展类型;S为漏洞验证重现场景,用于记录众包参与人员的漏洞验证过程和重现描述;L为相关链接,用于记录该漏洞经验证后有效相关的链接;为了让众包结果的聚类效果更加明显,当R选项为否时,C、S、L三部分都将为空字段;S漏洞验证重现场景作为重要但同时随机不确定性的维度,采取依据漏洞词汇字典库进行词频和深度的权重计算得出数值变量;
3b)通过聚类分析算法的参数为依据进行迭代聚类,将得到聚类最大集,结果将确定该漏洞真实与否,如果漏洞为真也将确定其最终类型,并且根据所属该类漏洞的报告集M中的重现场景权重最大值给出参考性的重现记录。
2.根据权利要求1所述的基于众包和机器学习的web漏洞验证方法,其特征是通过对漏洞验证报告进行统一设定,其格式由权利要求1步骤3a)记录;漏洞验证报告由众包人员通过网络进行提交,收集完所有的漏洞验证报告后,统一存储漏洞验证报告库,对不符合设定格式的漏洞验证报告进行调整或舍弃。
3.根据权利要求2所述的基于众包和机器学习的web漏洞验证方法,其特征是步骤2b)的过滤无关报告中的关键词提取部分中,对漏洞验证报告中的重现场景描述进行分词操作,并替换词语。
4.根据权利要求1所述的基于众包和机器学习的web漏洞验证方法,其特征是步骤3b)中的聚类分析算法所使用到的参数,根据众包样本集大小变化应进行相应参数调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳慕智科技有限公司,未经深圳慕智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811498958.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光触媒喷涂车
- 下一篇:一种肉牛养殖投喂时防抢食设施