[发明专利]多时间序列的样本特征提取方法以应用其的软件检测方法有效
申请号: | 202110871552.X | 申请日: | 2021-07-30 |
公开(公告)号: | CN113568836B | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 翟欣虎;秦益飞;杨正权 | 申请(专利权)人: | 江苏易安联网络技术有限公司 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州汇和信专利代理有限公司 33475 | 代理人: | 吴琰 |
地址: | 210000 江苏省南京市江宁区*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多时 序列 样本 特征 提取 方法 应用 软件 检测 | ||
1.一种多时间序列的样本特征提取方法,其特征在于,包括以下步骤:
运行软件样本,获取软件样本在操作系统中调用指令生成的多条指令调用记录;
根据所属线程对每条指令调用记录分组,对分组内所有指令调用记录按照调用顺序正序排列,并提取每组前连续多条指令调用记录生成指令序列;
计算每一线程调用的指令序列的特征值总和,按照特征值总和的大小正序排列,得到多个指令序列间的绝对顺序,提取每组前连续多列指令序列且合并生成特征矩阵;
获取待分类软件,将待分类软件输入已训练的预测模型中,其中对特征矩阵中的每列指令序列进行词嵌入运算,将词嵌入运算后的特征矩阵作为循环神经网络的输入,得到已训练的预测模型输出的软件分类标签;
其中所述预测模型的训练方法包括:
获取多个特征矩阵以构造训练数据集,其中,每个特征矩阵以线程编号为列,以指令编号为行,指令编号由用数值化后的指令名称表示;根据训练数据集对预测模型进行训练,得到已训练的预测模型,其中,预测模型包括卷积神经网络或全连接层的其中一种以及多个循环神经网络,将每个特征矩阵作为循环神经网络的输入,将软件分类标签作为卷积神经网络或者全连接层的输出,训练预测网络。
2.根据权利要求1所述的多时间序列的样本特征提取方法,其特征在于,“获取软件样本在操作系统中调用指令生成的多条指令调用记录”包括:
将软件样本在虚拟终端上运行,捕获预设时段内软件样本对虚拟终端上的操作系统指令调用的调用列表,其中,每一软件样本运行时对应生成一调用列表,调用列表中包括多条指令调用记录。
3.根据权利要求2所述的多时间序列的样本特征提取方法,其特征在于,调用列表中每一指令调用记录包括以下属性:软件名、软件分类标签、指令名称,指令所属线程编号,调用顺序,基于指令所属线程编号确定指令所属线程。
4.根据权利要求1所述的多时间序列的样本特征提取方法,其特征在于,包括:
设定每列指令序列的目标指令数;
在每个分组内的指令调用记录的个数小于目标记录的情况下,采用随机字符串补齐分组记录,否则,丢弃分组内目标指令数以外的指令调用记录;
生成指令序列,将指令序列中的每行指令调用记录的指令名称数值化。
5.根据权利要求4所述的多时间序列的样本特征提取方法,其特征在于,包括:
设定目标线程数;在分组的个数小于目标线程数的情况下,采用随机数值补齐分组个数,否则,丢弃目标线程数以外的分组。
6.一种多时间序列的样本特征提取装置,其特征在于,包括:
软件运行模块,用于运行软件样本,获取软件样本在操作系统中调用指令生成的多条指令调用记录;
序列生成模块,用于根据所属线程对每条指令调用记录分组,对分组内所有指令调用记录按照调用顺序正序排列,并提取每组前连续多条指令调用记录生成指令序列;
计算模块,用于计算每一线程调用的指令序列的特征值总和,按照特征值总和的大小正序排列,得到多个指令序列间的绝对顺序,提取每组前连续多列指令序列且合并生成特征矩阵;
获取待分类软件,将待分类软件输入已训练的预测模型中,其中对特征矩阵中的每列指令序列进行词嵌入运算,将词嵌入运算后的特征矩阵作为循环神经网络的输入,得到已训练的预测模型输出的软件分类标签;
其中所述预测模型的训练方法包括:
获取多个特征矩阵以构造训练数据集,其中,每个特征矩阵以线程编号为列,以指令编号为行,指令编号由用数值化后的指令名称表示;根据训练数据集对预测模型进行训练,得到已训练的预测模型,其中,预测模型包括卷积神经网络或全连接层的其中一种以及多个循环神经网络,将每个特征矩阵作为循环神经网络的输入,将软件分类标签作为卷积神经网络或者全连接层的输出,训练预测网络。
7.一种计算机可读存储介质,其特征在于,包括软件代码部分,当所述计算机可读存储介质在计算机上被运行时,所述代码软件部分用于执行根据权利要求1-5任一项所述的多时间序列的样本特征提取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏易安联网络技术有限公司,未经江苏易安联网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110871552.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据管理方法、装置和存储设备
- 下一篇:一种高质本色低克重纸的生产系统