[发明专利]一种基于多任务深度学习的安全缺陷报告预测方法在审

专利信息
申请号: 202010853000.1 申请日: 2020-08-22
公开(公告)号: CN112001484A 公开(公告)日: 2020-11-27
发明(设计)人: 苏小红;蒋远;牟辰光;王甜甜 申请(专利权)人: 哈尔滨工业大学
主分类号: G06N3/04 分类号: G06N3/04;G06N3/08;G06K9/62;G06F40/284;G06F16/35
代理公司: 哈尔滨龙科专利代理有限公司 23206 代理人: 高媛
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 任务 深度 学习 安全 缺陷 报告 预测 方法
【说明书】:

发明公开了一种基于多任务深度学习的安全缺陷报告预测方法,首先挖掘缺陷报告仓库以及安全漏洞管理网站,构造多任务学习数据集。对数据集中缺陷报告的文本内容进行预处理,生成专业语料库,并利用其训练word2vec模型。建立多任务深度学习模型,利用模型底层的深度神经网络提取缺陷报告的共享语义特征,利用高层的各个子网络学习针对不同任务的具有分辨力的特征,最后将高层网络输出的特征向量作为各子任务预测网络的输入,完成安全缺陷报告识别和严重级别预测任务。本发明首次将多任务学习用于安全缺陷报告预测,利用与目标任务相关的辅助任务信息,引导模型学习到有更强泛化能力的特征,能够提高模型的泛化能力,降低噪音数据的影响。

技术领域

本发明涉及一种安全缺陷报告预测方法,具体涉及一种基于多任务深度学习的安全缺陷报告预测方法。

背景技术

随着软件的规模和复杂性日益增大,不可避免地会出现各种各样的软件缺陷。其中,安全相关的缺陷一旦被攻击者利用,将会对软件系统造成重大危害和损失。为了利于收集和管理软件缺陷,越来越多的软件公司比如Google、Mozilla已经建立了自己的缺陷报告追踪系统,用户可将发现的缺陷提交到系统上以便及时分派修复人员进行修复。由于缺乏安全相关的领域知识,缺陷报告提交者往往很难准确判断缺陷报告是否与安全相关,如果在提交报告时将安全相关的缺陷标记为非安全相关,那么势必会贻误安全缺陷修复的时机,对系统造成严重的安全威胁。采用人工方式识别安全相关的缺陷报告(以下简称“安全缺陷报告”)显然是非常耗时和不现实的。因此,自动识别安全缺陷报告具有重要意义。

缺陷报告本身就具有文本描述信息差异性大的特点,又因正样本即安全缺陷报告(Security Bug Report,SBR)在数据集中的比例较少导致类别不均衡和安全特征稀缺而不易提取,此外因开发或测试人员缺乏安全知识还会导致少量SBR未被标记为安全相关的缺陷报告,而以非安全缺陷报告(Non-Security Bug Report,NSBR)的形式存在于数据集中,相当于在数据集中引入了噪音,这些问题都给自动识别安全缺陷报告带来了困难和挑战。

目前常用的方法是使用文本挖掘和机器学习相结合的方法。FARSEC和LTRWES是这类方法的典型代表。FARSEC方法是Peters等人(Peters F,Tun T,Yu Y,et al.TextFiltering and Ranking for Security Bug Report Prediction[J].IEEE Transactionson Software Engineering,2017:1-1)提出的,该方法从安全缺陷报告中提取tf-idf值最高100个词作为安全相关的关键词,并利用这100个安全关键词来过滤非安全缺陷报告,同时还利用这些安全关键词将历史缺陷报告表示成一个100维的特征向量,用于训练SBR自动识别模型。然而,这种方法存在的主要问题是tf-idf值较高的词未必是和安全相关的词,这会影响噪音数据的过滤效果,同时因一份缺陷报告中可能只出现少数几个安全相关的关键词,还会导致特征向量中含有大量的0元素即出现向量稀疏问题,从而无法准确地表达缺陷报告的语义信息。针对这些问题,Jiang等人(Y Jiang,P LU,X SU,T Wang.LTRWES:A newframework for security bug report detection[J].Information and SoftwareTechnology.2020:106314)提出使用排序模型BM25Fext计算每个NSBR与所有SBR的内容相关性,然后从NSBR中过滤掉与SBR内容相关度较高的NSBR,利用在大量缺陷报告文本语料库上训练的word2vec模型将缺陷报告表示为低维连续的实值向量,进而实现更准确的缺陷报告向量表示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010853000.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top