[发明专利]一种基于特征向量的相似恶意样本匹配方法及系统有效
申请号: | 201410827237.7 | 申请日: | 2014-12-29 |
公开(公告)号: | CN105488406B | 公开(公告)日: | 2019-02-26 |
发明(设计)人: | 张洋;康学斌;董晓齐;孙晋超;肖新光 | 申请(专利权)人: | 哈尔滨安天科技股份有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150090 黑龙江省哈尔滨*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于特征向量的相似恶意样本文件匹配方法及系统,本发明首先提取海量恶意样本文件库中的各恶意样本文件的行为特征;过滤所述行为特征,计算过滤后的各行为特征的hash值,并针对各恶意样本文件生成行为特征向量组;获取待查询样本文件的待查询特征向量组;求取待查询样本文件与各恶意样本文件的样本相似度,获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组,根据所述行为特征向量组,找到相应的恶意样本文件,所述恶意样本文件为与待查询样本文件相似的恶意样本文件。本发明所述技术方案能够在海量样本中快速发现恶意样本文件的共性,查询到所需的相似样本,并生成报告以提供给相关人员进行分析。 | ||
搜索关键词: | 样本文件 行为特征向量 行为特征 查询 样本相似度 特征向量 匹配 过滤 样本 查询特征向量 海量样本 相似度 发现 分析 | ||
【主权项】:
1.一种基于特征向量的相似恶意样本文件匹配方法,其特征在于,包括:提取海量恶意样本文件库中的各恶意样本文件的行为特征;过滤所述行为特征,计算过滤后的各行为特征的hash值,并针对各恶意样本文件生成行为特征向量组,所述行为特征向量组包含m个行为特征向量,所述m个行为特征向量对应于各恶意样本文件的m类行为特征;所述行为特征向量的结构为:行为特征类型:[行为分量1,行为分量2…行为分量n];获取待查询样本文件的待查询特征向量组;基于预设过滤条件,对海量恶意样本文件库进行过滤;求取待查询样本文件与各恶意样本文件的样本相似度,获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组,根据所述行为特征向量组,找到相应的恶意样本文件,所述恶意样本文件为与待查询样本文件相似的恶意样本文件;所述求取样本相似度的具体方法为:将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对,求取任一行为特征类型下,两者所含的相同行为分量的数目;求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值,再乘以该行为特征向量的预设权重,获得该行为特征向量的中间权重值,并以同样的方法求取其余行为特征向量的中间权重值,计算所有中间权重值之和,获得样本相似度;所述的全部行为特征向量权重总和为1;其中,所述预设过滤条件为:选取待查询特征向量组的任一行为特征向量作为单一变量,假设其余行为特征向量完全匹配,根据行为分量数目、目标相似度以及行为特征向量的权重之间的运算关系,求出相对应各行为分量的最少匹配分量数;计算行为分量的子权重,从大到小排列,形成倒叙子权重列表;逐一累加列表中子权重,直至累加之和大于预设目标权重,列表中参与累加的行为分量的个数即为最少匹配总数;基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本文件库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨安天科技股份有限公司,未经哈尔滨安天科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410827237.7/,转载请声明来源钻瓜专利网。