[发明专利]基于机器学习的程序识别方法及装置有效
申请号: | 201410046852.4 | 申请日: | 2010-11-29 |
公开(公告)号: | CN103839006B | 公开(公告)日: | 2017-07-28 |
发明(设计)人: | 周鸿祎;董毅;周辉 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06N5/02 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 赵娟 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 程序 识别 方法 装置 | ||
1.一种基于机器学习的程序识别方法,其特征在于,包括:
分析输入的未知程序,提取所述未知程序的特征;所述输入的未知程序为PE文件;
将所提取的特征放入一个特征向量之内对所述未知程序进行粗分类;
根据所述粗分类的结果,将所述未知程序输入已生成的训练模型及相应的决策机中进行判断;
输出所述未知程序的识别结果,所述识别结果为恶意程序或非恶意程序;
输入提取到的海量程序,所述海量程序中包括恶意程序和非恶意程序;
从所输入的每个程序中提取特征,并对所提取的特征进行分类;
根据所述分类的结果,将不同类别的特征使用不同的决策机进行训练,生成用于识别恶意程序的训练模型或训练模型集合;
其中,所述从所输入的每个程序中提取特征包括:
分析每个程序文件,从所述程序文件中抽取预先定义的特征;
根据所抽取的特征生成特征向量,以及每个特征向量的黑白属性。
2.根据权利要求1所述的方法,其特征在于,当包括多个训练模型时,所述将未知程序输入已生成的训练模型及相应的决策机中进行判断包括:
将未知程序分别输入一个或多个已生成的训练模型及相应的决策机中进行判断;
根据预先设置的每种特征分类在每个训练模型中的权重,将每个训练模型及相应的决策机对所述未知程序进行判断的结果进行加权计算;
所述输出未知程序的识别结果具体为:根据所述加权计算的结果输出对所述未知程序的识别结果。
3.根据权利要求1所述的方法,其特征在于,所述对所提取的特征进行分类具体为:根据已知编译器的入口指令序列判定编译生成相应程序的编译器类型。
4.根据权利要求1所述的方法,其特征在于,所述不同的决策机使用相同或不同的方式对特征进行训练,包括:使用支持向量机的决策机进行训练,或使用决策树的决策机进行训练。
5.根据权利要求1所述的方法,其特征在于,所述训练模型为带编码的训练模型、或压缩的训练模型。
6.一种基于机器学习的程序识别装置,其特征在于,包括:
提取单元,用于分析输入的未知程序,提取所述未知程序的特征;所述输入的未知程序为PE文件;
分类单元,用于将所提取的特征放入一个特征向量之内对所述未知程序进行粗分类;
判断单元,用于根据所述粗分类的结果,将所述未知程序输入已生成的训练模型及相应的决策机中进行判断;
输出单元,用于输出所述未知程序的识别结果,所述识别结果为恶意程序或非恶意程序;
输入单元,用于输入提取到的海量程序,所述海量程序中包括恶意程序和非恶意程序;
提取单元,用于从所输入的每个程序中提取特征;
分类单元,用于对所提取的特征进行分类;
生成单元,用于根据所述分类的结果,将不同类别的特征使用不同的决策机进行训练,生成用于识别恶意程序的训练模型或训练模型集合;
其中,所述提取单元包括:
程序文件分析单元,用于分析每个程序文件,从所述程序文件中抽取预先定义的特征;
向量属性生成单元,用于根据所抽取的特征生成特征向量,以及每个特征向量的黑白属性。
7.根据权利要求6所述的装置,其特征在于,所述判断单元包括:
程序输入单元,用于当包括多个训练模型时,将未知程序分别输入多个已生成的训练模型及相应的决策机中进行判断;
加权计算单元,用于根据预先设置的每种特征分类在每个训练模型中的权重,将每个训练模型及相应的决策机对所述未知程序进行判断的结果进行加权计算;
所述输出单元,具体用于根据所述加权计算的结果输出对所述未知程序的识别结果。
8.根据权利要求6所述的装置,其特征在于,所述分类单元具体用于,根据已知编译器的入口指令序列判定编译生成相应程序的编译器类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410046852.4/1.html,转载请声明来源钻瓜专利网。