[发明专利]基于深度学习方法推断恶意代码规则的方法、系统及设备有效
申请号: | 201611024547.0 | 申请日: | 2016-11-16 |
公开(公告)号: | CN106709345B | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 潘宣辰;孙岩;马志远 | 申请(专利权)人: | 武汉安天信息技术有限责任公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
地址: | 430000 湖北省武汉市东湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习方法 推断 恶意代码 规则 方法 系统 设备 | ||
1.一种基于深度学习方法推断恶意代码规则的方法,其特征在于,包括:
将带有恶意代码的dex文件解析成字符串,并根据预设规则从所述字符串中提取出关键字符串,其中,根据恶意样本选择对照样本,分别将恶意样本和对照样本的dex文件解析成字符串,并根据恶意样本的函数调用关系和代码结构上下文提取恶意样本的关键字符串,根据对照样本的函数调用关系和代码结构上下文提取对照样本的关键字符串;
利用word2vec思想对所述关键字符串进行训练,得到第一训练结果,其中,分别对恶意样本的函数调用关系和代码结构上下文进行word2vec训练,生成所述恶意样本的关键字符串的特征向量,并分别对对照样本的函数调用关系和代码结构上下文进行word2vec训练,生成所述对照样本的关键字符串的特征向量,将所述恶意样本的关键字符串的特征向量与所述对照样本的关键字符串的特征向量进行相似度计算,并根据所述相似度确定敏感字符串,所述第一训练结果包括所述敏感字符串;
通过所述第一训练结果,构建恶意样本特征向量;
根据所述恶意样本特征向量从所述关键字符串中提取预设范围内的字符串,并对所述预设范围内的字符串再次利用word2vec思想进行训练,得到第二训练结果;
基于所述第二训练结果获得恶意代码字符串规则,其中,所述基于第二训练结果获得恶意代码字符串规则包括:通过获得关联性最大的字符串,找出关联性最大的字符串之间的字符串特征,最终根据所述关联性最大的字符串之间的字符串特征获得恶意代码字符串规则。
2.如权利要求1所述的方法,其特征在于,所述关键字符串包括函数调用关系和代码结构上下文中的用于描述所述dex文件内容字符串关系的内容。
3.如权利要求1所述的方法,其特征在于,所述构建恶意样本特征向量为:基于样本属性数据,归纳n个样本属性数据,并基于所述n个样本属性数据,计算属性数据的向量,并计算所述属性数据的向量两两相似度矩阵,保留主要向量,累加所有所述主要向量的各维度分量,其中,所述主要向量包括两两相似度矩阵之间的差异性大于预设阈值的属性数据的向量。
4.如权利要求3所述的方法,其特征在于,所述保留主要向量,累加所有所述主要向量的各维度分量,包括:
将两两相似度矩阵之间的差异性大于预设阈值的属性数据的向量进行保留;
将所述保留的属性数据的向量作为所述恶意样本特征向量,其中,针对所述保留的属性数据的向量,对相同的属性数据的向量的各维度分量进行累加。
5.如权利要求1所述的方法,其特征在于,通过文档主题生成模型LDA将关联性字符串之间的字符串特征进行特征提取以获得所述恶意代码字符串规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉安天信息技术有限责任公司,未经武汉安天信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611024547.0/1.html,转载请声明来源钻瓜专利网。