[发明专利]一种移动终端上的恶意应用软件的检测方法有效
申请号: | 201310029515.X | 申请日: | 2013-01-25 |
公开(公告)号: | CN103106365A | 公开(公告)日: | 2013-05-15 |
发明(设计)人: | 赖英旭;乔静静;杨震;刘静;李健;徐壮壮 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 楼艮基 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种移动终端上的恶意应用软件的检测方法用于手机信息安全领域,其特征在于:首先,采用放回的抽样方法从正常的应用下载软件中独立的抽取多个样本子集,每次随机抽取的样本数量与恶意的应用下载软件的数量相同。这些子集分别与恶意的应用下载软件结合,组成一系列新的训练样本子集;之后,解压新的训练样本子集中的各个样本文件,读取可执行文件和配置文件的内容,进而采用特征选择算法抽取能够代表样本文件的特征,得到特征子集;紧接着,选取在所有特征子集均出现的特征组合得到最终的特征集;然后对训练样本集中的样本重新训练,得到特征向量;最后,通过贝叶斯等分类算法进行分类,检测恶意应用软件。 | ||
搜索关键词: | 一种 移动 终端 恶意 应用软件 检测 方法 | ||
【主权项】:
1.一种移动终端上的恶意应用软件的检测方法,其特征在于是在计算机中一次按以下步骤实现的:步骤(1)、利用杀毒软件对手机的应用软件进行分类从网络上搜集手机应用的下载软件,分别利用卡巴斯基杀毒软件、网秦在线安全检测软件、360手机安全检测软件以及安全侠在线检测软件共四款杀毒软件对手机上的应用下载软件进行检测,得到正常应用软件和恶意应用软件两种类型;从中选取4份正常应用软件作为正常训练样本集,选取4份恶意应用软件作为恶意训练样本集,余下的一份正常应用软件作为正常测试样本集,余下的一份恶意应用软件作为恶意测试样本集;步骤(2)、按以下步骤利用相关性CHI算法从正常、恶意训练样本集中每个训练样本中提取共有的字符串信息作为特征集中的特征步骤(2.1)按以下步骤生成S个训练样本子集,利用所述的相关性CHI算法得到S个特征子集,S是对所述训练样本子集进行放回抽样的次数;步骤(2.1.1)从步骤(1)中所述的正常应用软件中随机抽取n1个样本构成正常训练样本子集,从所述的恶意应用软件中随机抽取n2个样本构成恶意训练样本子集,n1=n2,两者组合成一个新的训练样本子集,有n1+n2个样本;步骤(2.1.2)对所述新的训练样本子集中的每个训练样本进行解压缩,从可执行文件中获取应用程序所需调用的系统库函数和该系统库函数所属的类名称,以及两者所对应的字符串信息,从配置文件中获得应用程序向系统申请的访问权限所对应的字符串信息,各除去重复的字符串信息后,得到各自惟一的字符串信息,经过拼合后,用N表示字符串信息的总数;步骤(2.1.3)统计步骤(2.1.2)中两种字符串信息拼合成后的N个字符串信息t在所述正常训练样本子集中共同出现的样本数m1,以及在所述恶意样本中集中共同出现的样本数m2,其中t简称为特征;步骤(2.1.4)按以下公式分别计算相关性步骤(2.1.4.1)按以下公式计算所述字符串信息t与正常类别C1的相关性,用CHI(t,C1)表示:CHI ( t , C 1 ) = n [ P ( t , C 1 ) × P ( t ‾ , C 2 ) - P ( t , C 2 ) × P ( t ‾ , C 1 ) ] 2 P ( t ) × P ( C 1 ) × P ( t ‾ ) × P ( C 2 ) ]]> 其中,n为步骤(2.1.1)中训练样本子集中的样本数,n=n1+n2;P(t,Ci)为所述训练样本子集中出现特征t并且出现在类别Ci的样本子集中的概率,i=1,2,C1类别即步骤(2.1.3)中所述正常训练样本子集简称正常类别,C2类别即恶意训练样本子集简称恶意类别,其中:P ( t , C 1 ) = m 1 n 1 + n 2 , ]]>![]()
为所述训练样本子集中出现特征t并且不出现在类别Ci中的样本的概率,其中:P ( t , C 1 ‾ ) = P ( t , C 2 ) , ]]>P ( t , C 2 ‾ ) = P ( t , C 1 ) ; ]]>
为所述训练样本子集中属于类别Ci但不包含特征t的样本的出现概率,其中:P ( t ‾ , C 1 ) = n 1 - m 1 n 1 + n 2 , ]]>P ( t , C 2 ) = n 2 - m 2 n 1 + n 2 ; ]]>
为所述训练样本子集中既不包含特征t又不属于类别Ci的样本出现的概率,其中:![]()
P(t)为所述训练样本子集中包含特征t的样本的出现概率,![]()
为所述训练样本子集中不包含特征t的样本的出现概率,
P(Ci)为所述训练样本子集中属于类别Ci的样本出现的概率,![]()
![]()
为所述训练样本子集中不属于类别Ci的样本的出现概率,其中:P ( C 1 ‾ ) = P ( C 2 ) = n 2 n 1 + n 2 , ]]>P ( C 2 ‾ ) = P ( C 1 ) = n 1 n 1 + n 2 , ]]> 因而,CHI ( t , C 1 ) = ( n 1 + n 2 ) [ m 1 ( n 1 + n 2 ) × ( n 2 - m 2 ) ( n 1 + n 2 ) - m 2 ( n 1 + n 2 ) × ( n 1 - m 1 ) ( n 1 + n 2 ) ] 2 ( m 1 + m 2 ) ( n 1 + n 2 ) × n 1 ( n 1 + n 2 ) × ( ( n 1 + n 2 ) - ( m 1 + m 2 ) ) ( n 1 + n 2 ) × n 2 ( n 1 + n 2 ) ; ]]> 步骤(2.1.4.2)按以下公式计算所述字符串信息t与恶意类别C2的相关性,用CHI(t,C2)表示:CHI ( t , C 2 ) = ( n 1 + n 2 ) [ m 2 ( n 1 + n 2 ) × ( n 1 - m 1 ) ( n 1 + n 2 ) - m 1 ( n 1 + n 2 ) × ( n 2 - m 2 ) ( n 1 + n 2 ) ] 2 ( m 1 + m 2 ) ( n 1 + n 2 ) × n 2 ( n 1 + n 2 ) × ( ( n 1 + n 2 ) - ( m 1 + m 2 ) ) ( n 1 + n 2 ) × n 1 ( n 1 + n 2 ) ; ]]> 步骤(2.1.5)按以下步骤构造特征子集步骤(2.1.5.1)对步骤(2.1.4.1)得到的CHI(t,C1)值由大到小排序,顺序选取N/2个字符串信息作为正常训练样本的特征;步骤(2.1.5.2)对步骤(2.1.4.2)得到的CHI(t,C2)值由大到小排序,顺序选取N/2个与步骤(2.1.5.1)所选取的N/2个字符串信息不同的字符串信息作为恶意训练样本的特征;步骤(2.1.5.3)把步骤(2.1.5.1)得到的N/2个正常训练样本的特征与从步骤(2.1.5.2)得到的N/2个恶意训练样本的特征合并得到N个字符串信息,作为特征选入特征子集;步骤(2.1.6)把步骤(2.1.1)得到的正常训练样本子集放回到步骤(2.1.1)所述的正常训练样本集中;步骤(2.1.7)重复操作步骤(2.1.1-2.1.6)S次,进行S次随机抽样,得到S个训练样本子集以及对应的S个特征子集,S是步骤(1)中所述的正常应用软件与恶意应用软件之间的数量比,设定S=20;步骤(2.2)把步骤(2.1.7)中得到的S个特征子集中均出现的特征组成最终的特征集中的特征步骤(3)、统计步骤(2.1.6)得到的各个特征t在所述的正常训练样本集中出现的样本数n(t,C1),以及在所述恶意训练样本集中出现的样本数n(t,C2)步骤(4)、把步骤(3)中得到的n(t,C1)、n(t,C2)和所述正常训练样本集中的样本数n(C1)、恶意训练样本集中的样本数n(C2)保存步骤(5)、按以下步骤对步骤(1)中所述的从网络上搜集的手机应用下载软件中的测试软件进行分类检测验证,所述测试软件包括所述的一个恶意测试样本集步骤(5.1)计算属于类别Ci的样本在训练样本集中出现的概率:P ( C 1 ) = n ( C 1 ) n ( C 1 ) + n ( C 2 ) , ]]>P ( C 2 ) = n ( C 2 ) n ( C 1 ) + n ( C 2 ) ; ]]> 步骤(5.2)计算特征tk所在类别的条件概率P(tk|Ci),是指类别Ci中出现特征tk的样本在类别Ci的样本集中出现的概率:P ( t k | C 1 ) = n ( t k , C 1 ) n ( C 1 ) , ]]>P ( t k | C 2 ) = n ( t k , C 2 ) n ( C 2 ) ; ]]> 步骤(5.3)计算所述测试软件属于正常类别C1的概率P(C1|F),F为特征tk的集合,k=1,2...K,P ( C 1 | F ) ∝ P ( C 1 ) * Π k = 1 K P ( t k | C 1 ) ; ]]> 步骤(5.4)计算所述测试软件属于恶意类别C2的概率P(C2|F),F为特征tk的集合,k=1,2...K,P ( C 2 | F ) ∝ P ( C 2 ) * Π k = 1 K P ( t k | C 2 ) ; ]]> 步骤(5.5)对步骤(5.3)和步骤(5.4)得到的P(C1|F)和P(C2|F)进行比较,选取概率值较大者作为验证测试软件的类别,给出提示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310029515.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种生产烟草薄片胶粘剂的制备方法
- 下一篇:新型唾液酸寡糖衍生物的合成