[发明专利]一种基于多任务深度学习的安全缺陷报告预测方法在审
申请号: | 202010853000.1 | 申请日: | 2020-08-22 |
公开(公告)号: | CN112001484A | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 苏小红;蒋远;牟辰光;王甜甜 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/62;G06F40/284;G06F16/35 |
代理公司: | 哈尔滨龙科专利代理有限公司 23206 | 代理人: | 高媛 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 深度 学习 安全 缺陷 报告 预测 方法 | ||
本发明公开了一种基于多任务深度学习的安全缺陷报告预测方法,首先挖掘缺陷报告仓库以及安全漏洞管理网站,构造多任务学习数据集。对数据集中缺陷报告的文本内容进行预处理,生成专业语料库,并利用其训练word2vec模型。建立多任务深度学习模型,利用模型底层的深度神经网络提取缺陷报告的共享语义特征,利用高层的各个子网络学习针对不同任务的具有分辨力的特征,最后将高层网络输出的特征向量作为各子任务预测网络的输入,完成安全缺陷报告识别和严重级别预测任务。本发明首次将多任务学习用于安全缺陷报告预测,利用与目标任务相关的辅助任务信息,引导模型学习到有更强泛化能力的特征,能够提高模型的泛化能力,降低噪音数据的影响。
技术领域
本发明涉及一种安全缺陷报告预测方法,具体涉及一种基于多任务深度学习的安全缺陷报告预测方法。
背景技术
随着软件的规模和复杂性日益增大,不可避免地会出现各种各样的软件缺陷。其中,安全相关的缺陷一旦被攻击者利用,将会对软件系统造成重大危害和损失。为了利于收集和管理软件缺陷,越来越多的软件公司比如Google、Mozilla已经建立了自己的缺陷报告追踪系统,用户可将发现的缺陷提交到系统上以便及时分派修复人员进行修复。由于缺乏安全相关的领域知识,缺陷报告提交者往往很难准确判断缺陷报告是否与安全相关,如果在提交报告时将安全相关的缺陷标记为非安全相关,那么势必会贻误安全缺陷修复的时机,对系统造成严重的安全威胁。采用人工方式识别安全相关的缺陷报告(以下简称“安全缺陷报告”)显然是非常耗时和不现实的。因此,自动识别安全缺陷报告具有重要意义。
缺陷报告本身就具有文本描述信息差异性大的特点,又因正样本即安全缺陷报告(Security Bug Report,SBR)在数据集中的比例较少导致类别不均衡和安全特征稀缺而不易提取,此外因开发或测试人员缺乏安全知识还会导致少量SBR未被标记为安全相关的缺陷报告,而以非安全缺陷报告(Non-Security Bug Report,NSBR)的形式存在于数据集中,相当于在数据集中引入了噪音,这些问题都给自动识别安全缺陷报告带来了困难和挑战。
目前常用的方法是使用文本挖掘和机器学习相结合的方法。FARSEC和LTRWES是这类方法的典型代表。FARSEC方法是Peters等人(Peters F,Tun T,Yu Y,et al.TextFiltering and Ranking for Security Bug Report Prediction[J].IEEE Transactionson Software Engineering,2017:1-1)提出的,该方法从安全缺陷报告中提取tf-idf值最高100个词作为安全相关的关键词,并利用这100个安全关键词来过滤非安全缺陷报告,同时还利用这些安全关键词将历史缺陷报告表示成一个100维的特征向量,用于训练SBR自动识别模型。然而,这种方法存在的主要问题是tf-idf值较高的词未必是和安全相关的词,这会影响噪音数据的过滤效果,同时因一份缺陷报告中可能只出现少数几个安全相关的关键词,还会导致特征向量中含有大量的0元素即出现向量稀疏问题,从而无法准确地表达缺陷报告的语义信息。针对这些问题,Jiang等人(Y Jiang,P LU,X SU,T Wang.LTRWES:A newframework for security bug report detection[J].Information and SoftwareTechnology.2020:106314)提出使用排序模型BM25Fext计算每个NSBR与所有SBR的内容相关性,然后从NSBR中过滤掉与SBR内容相关度较高的NSBR,利用在大量缺陷报告文本语料库上训练的word2vec模型将缺陷报告表示为低维连续的实值向量,进而实现更准确的缺陷报告向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010853000.1/2.html,转载请声明来源钻瓜专利网。