[发明专利]软件基因视角下多粒度信息融合的二进制代码溯源方法有效
申请号: | 202110656320.2 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113536308B | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 刘福东;黄一钊;张春燕;单征;桂海仁;乔猛;熊其冰;唐柯;徐恋秋;宋智辉 | 申请(专利权)人: | 中国人民解放军战略支援部队信息工程大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F8/53;G06F16/28;G06N3/04;G06N3/08 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 张立强 |
地址: | 450000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 软件 基因 视角 粒度 信息 融合 二进制 代码 溯源 方法 | ||
本发明属于网络安全技术领域,公开一种软件基因视角下多粒度信息融合的二进制代码溯源方法,包括:步骤1:提取目标程序的软件基因序列、软件基因、软件基因图及从IDA直接可提取的常用信息至sqlite数据库;步骤2:将sqlite数据库中的软件基因序列使用词嵌入之后再进行双向GRU模型的训练,得到特征向量;步骤3:基于步骤2训练后得到的特征向量及sqlite数据库中的信息进行多粒度序列信息融合,得到包含多粒度信息的特征向量,然后通过图卷积进行结构化学习;步骤4:通过全连接层将学习到的隐层空间特征向量表示映射到样本标记空间,作为判决的投票值,最终得出分类结果。本发明具有较高的二进制代码溯源准确率。
技术领域
本发明属于网络安全技术领域,尤其涉及一种软件基因视角下多粒度信息融合的二进制代码溯源方法。
背景技术
二进制代码溯源是指通过二进制代码作者相关的特征找出潜藏在幕后的作者或团队,通过自动化手段来代替易错且费时的手工逆向工程任务。“恶意代码的背后究竟是谁?”,现今安全社区一个非常重要的问题就是代码的追踪溯源问题。通过找到恶意代码的来源,并且与先前已知威胁相关联,从而更好的进行防御,并开发技术来应对未来可能面临的危险。随着越来越多的恶意代码以及经过改变之后的恶意代码数量急剧增加。恶意软件的组织和作者正在创造大量的恶意软件变种。虽然已经做出了大量的努力来开发源代码的方法。另外还有不乏还有使用诸如间距和变量名之类的特征来反应源代码的特征。但是这些技术通常依赖于编译过程之后可能丢失的信息如变量、函数重命名、注释、代码组织、开发环境、编程语言、文件编辑器等等信息。并且在现实世界中,如商业软件和恶意软件分析,很难找到其源代码,这就意味着这些特征必须基于二进制文件来进行提取,而这也意味着大多数源代码的工作在这里并不适用。另一方面,程序二进制文件没有保留源代码中的特征,这些特征在编译过程中被剥离掉,但一些论文表明,二进制文件还是有非常丰富的特征,并且通过二进制文件来进行提取特征并且分析是可行的。然而现在的二进制级别的文件不一定是由单独一个作者编写而成,而有可能是某个团队、组织、国家机构。因为现在软件包括恶意软件,往往都是团队努力的成果,恶意软件开发已经变得与普通软件开发比较类似,从一个黑客攻击变为多个程序员之间的合作关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学,未经中国人民解放军战略支援部队信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110656320.2/2.html,转载请声明来源钻瓜专利网。