[发明专利]基于家族样本的病毒特征自动提取方法及系统有效
申请号: | 201210072372.6 | 申请日: | 2012-03-19 |
公开(公告)号: | CN103324888A | 公开(公告)日: | 2013-09-25 |
发明(设计)人: | 童志明;董雷;田彻;张栗伟 | 申请(专利权)人: | 哈尔滨安天科技股份有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150090 黑龙江省哈尔滨*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 家族 样本 病毒 特征 自动 提取 方法 系统 | ||
技术领域
本发明涉及网络安全领域,特别涉及一种基于家族样本的病毒特征自动提取方法及系统。
背景技术
当前已知的最长公共子序列算法的时间复杂度为O(m*n),m、n为数列长度,如果将其应用在基于家族样本的病毒特征码提取上,在面临大量样本的情况下,该算法的时间复杂度,所产生的代价将会对病毒特征码的提取效率产生巨大的负面影响;同时,现有的最长公共子序列算法只能够得出两个已知数列的唯一最长公共子序列,应用在家族样本提取中,就会面临所提取的特征码过少,不足以提供给人工分析、特征码质量难以保证的问题,并且特征码的选取,根据家族样本的实现特点不同,特征出现的位置也不同,同样影响样本的特征码质量。
发明内容
本发明提供一种基于家族样本的病毒特征自动提取方法及系统,解决了最长公共子序列算法提取家族样本特征码效率低、提取特征码过少及特征码准确性低的问题。
一种基于家族样本的病毒特征自动提取方法,包括:
利用家族样本集中的样本,建立数列:选取家族样本集中的任一样本作为数列A,样本长度即为数列A长度;
选取家族样本集中的剩余样本,分别作为数列B,样本长度即为数列B长度;所述的剩余样本为,除数列A所选取的样本外,家族样本集中的全部样本;
设定特征码长度,根据预设的特征码长度k,计算数列A中所有长度为k的子序列的哈希值,并用得到的哈希值构建红黑树;
根据预设的特征码长度k,计算数列B中所有长度为k的子序列的哈希值;
特征码提取,将数列B得到的哈希值分别在红黑树中查找,如果查找到相同的哈希值,则将所述相同哈希值所对应的数列A及数列B的公共子序列作为所述家族样本特征码,将所述剩余样本分别作为数列B并在红黑树中查找后,得到的所有家族样本特征码组成家族样本特征集;
所述的方法中,所述的预设特征码长度k小于或等于数列A及数列B的长度。
所述的方法中,所述的建立特征码质量评价加权模型,计算各家族样本特征码实际权值包括:根据特征码的位置,预设特征码权值,通过特征码权值及特征码出现的数量,计算各家族样本特征码实际权值。
一种基于家族样本的病毒特征自动提取系统,包括:
样本选取模块,利用家族样本集中的样本,建立数列:选取家族样本集中的任一样本作为数列A,样本长度即为数列A长度;
选取家族样本集中的剩余样本,分别作为数列B,样本长度即为数列B长度;
计算模块,用于设定特征码长度,根据预设的特征码长度k,计算数列A中所有长度为k的子序列的哈希值,并用得到的哈希值构建红黑树;
根据预设的特征码长度k,计算数列B中所有长度为k的子序列的哈希值;
特征码提取模块,用于将数列B得到的哈希值分别在红黑树中查找,如果查找到相同的哈希值,则将所述相同哈希值所对应的数列A及数列B的公共子序列作为所述家族样本特征码,将所述剩余样本分别作为数列B并在红黑树中查找后,得到的所有家族样本特征码组成家族样本特征集;
质量评价模块,用于建立特征码质量评价加权模型,计算各家族样本特征码实际权值,保留大于或等于预设权值的家族样本特征码。
所述的系统中,所述的预设特征码长度k小于或等于数列A及数列B的长度。
所述的系统中,所述的质量评价模块建立特征码质量评价加权模型,计算各家族样本特征码实际权值包括:根据特征码的位置,预设特征码权值,通过特征码权值及特征码出现的数量,计算各家族样本特征码实际权值。
本发明通过对最长公共子序列算法进行改进,并应用到家族样本的特征码提取中,大幅提高了特征码提取的效率及数量,并且根据特征码质量评价加权模型,对所提取的特征码进行按特征码出现位置评价质量,提高了家族样本特征码提取的准确度。
本发明提供一种基于家族样本的病毒特征自动提取方法及系统,本发明对最长公共子序列算法进行改进,利用家族样本集中的样本,建立数列A、B,通过预设特征码长度,分别计算数列A、B中长度为预设值的子序列的哈希值,并通过红黑树方式对A、B数列中的子序列的哈希值匹配,若哈希值相同,则该哈希值所对应的子序列为数列A及数列B的公共子序列,则该公共子序列为家族样本特征码,当剩余样本分别作为数列B并在红黑树中查找后,得到的所有家族样本特征码组成家族样本特征集,根据建立的特征码质量评价加权模型,判断特征码质量,确定家族样本特征码。通过本发明的方法,简化了算法的时间复杂度,提高了特征码提取效率及准确度。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨安天科技股份有限公司,未经哈尔滨安天科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210072372.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于制备PET磨砂板的压辊
- 下一篇:具有被减薄的衬底的垂直半导体器件