[发明专利]文件安全风险检测方法、模型的训练方法、装置和设备在审
申请号: | 202111124485.1 | 申请日: | 2021-09-24 |
公开(公告)号: | CN113806750A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 郑景中;徐敬蘅;闫凡;郜振峰;宁阳;王雄;徐云中;赵艺宾 | 申请(专利权)人: | 深信服科技股份有限公司 |
主分类号: | G06F21/57 | 分类号: | G06F21/57 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 陈彦如 |
地址: | 518055 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 安全 风险 检测 方法 模型 训练 装置 设备 | ||
本申请实施例公开了一种文件安全风险检测方法、模型的训练方法、装置、设备和介质,将获取的源码文件按照设定的格式要求进行处理,以得到源码特征向量;源码特征向量是层级网络模型可识别的数据格式。为了充分获取源码文件包含的语义信息,可以利用训练好的层级网络模型对源码特征向量进行层级划分,以得到代码段和各代码段包含的代码句;并对各代码段和各代码句进行语义分析,以确定出源码文件存在安全漏洞的风险。在该技术方案中,层级网络模型可以对源码特征向量进行不同层级的划分,从而可以充分挖掘源码文件的语义信息,通过语义分析可以准确的识别出源码文件中具有安全漏洞风险的代码句和代码段,提升了文件安全风险检测的准确性。
技术领域
本申请涉及网络安全技术领域,特别是涉及一种文件安全风险检测方法、用于文件安全风险检测的模型的训练方法、装置、设备和计算机可读存储介质。
背景技术
源代码也称源程序,是指一系列人类可读的计算机语言指令。源代码最为常用的格式是文本文件,一般以源码文件的形式呈现。源码文件的安全可靠,是计算机设备正常运行的重要因素。当源码文件存在漏洞时会影响到计算机设备的正常运行,甚至对计算机设备造成安全威胁。
目前对于源码文件的文件安全风险的检测主要依赖于特征词库匹配的方式,将出现过安全漏洞的历史源码文件进行收集,通过信息合并、特征提取等手段构建特征词库。当需要对当前的源码文件进行文件安全风险的检测时,将源码文件与特征词库进行匹配,若源码文件中存在与特征词库匹配的数据,则说明源码文件可能存在安全漏洞,此时可以将该源码文件交由管理人员进一步审核。
由于特征词库包含的特征信息形式较为固定且数量有限,因此基于特征词库检测源码文件漏洞的准确性较低,对于一些不常见的漏洞形式,基于特征词库往往无法检测出来。
可见,如何提升文件安全风险的准确性,是本领域技术人员需要解决的问题。
发明内容
本申请实施例的目的是提供一种文件安全风险检测方法、用于文件安全风险检测的模型的训练方法、装置、设备和计算机可读存储介质,可以提升文件安全风险的准确性。
为解决上述技术问题,本申请实施例提供一种文件安全风险检测方法,包括:
将获取的源码文件按照设定的格式要求进行处理,以得到源码特征向量;
利用训练好的层级网络模型对所述源码特征向量进行层级划分,以得到代码段和各代码段包含的代码句;并对各所述代码段和各所述代码句进行语义分析,以确定出所述源码文件存在安全漏洞的风险。
可选地,所述对各所述代码段和各所述代码句进行语义分析,以确定出所述源码文件存在安全漏洞的风险包括:
依据所述层级网络模型中各层级注意力向量,对所述源码特征向量中包含的代码段和代码句进行量化;
根据量化后的代码段和量化后的代码句,确定出所述源码文件存在安全漏洞的风险。
可选地,所述依据所述层级网络模型中各层级注意力向量,对所述源码特征向量中包含的代码段和代码句进行量化包括:
基于初级注意力向量和各代码句包含的源码特征向量,确定出各所述代码句对应的权重值;其中,所述初级注意力向量为基于安全漏洞语料库对所述层级网络模型进行训练得到词向量;
基于次级注意力向量和各代码段中包含的代码句,确定出各所述代码段对应的权重值;其中,所述次级注意力向量为基于安全漏洞语料库对所述层级网络模型进行训练得到句向量;
基于所述代码句对应的权重值和所述代码段对应的权重值,确定出所述源码文件存在安全漏洞的风险。
可选地,所述基于所述代码句对应的权重值和所述代码段对应的权重值,确定出所述源码文件存在安全漏洞的风险包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深信服科技股份有限公司,未经深信服科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111124485.1/2.html,转载请声明来源钻瓜专利网。