[发明专利]一种适用于深度学习的通信数据编码方法有效
申请号: | 201810996375.6 | 申请日: | 2018-08-29 |
公开(公告)号: | CN109246095B | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 陈兴蜀;邵国林;曾雪梅;王丽娜;何涛;韩珍辉;文奕 | 申请(专利权)人: | 四川大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/24;G06N3/08 |
代理公司: | 成都禾创知家知识产权代理有限公司 51284 | 代理人: | 裴娟 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通信数据 原始特征向量 属性值序列 通信行为 应用 预处理 归一化处理 神经网络 特征向量 通信特征 序列编码 异构通信 专家知识 不规则 池化 定长 字段 拼接 学习 金字塔 聚合 排序 对流 取出 验证 场景 保留 记录 分析 | ||
1.一种适用于深度学习的通信数据编码方法,其特征在于,包括以下步骤:
步骤1:将各种格式的流级通信数据进行预处理,规范化成特定的Flow格式,保留信息抽取和编码需要的特定字段;
步骤2:将具有相同源IP和目的IP的Flow数据f聚合在一个集合中,形成通信对:NF(x→y)=<f1,f2,…,fn>,一个通信对内的所有Flow数据表示通信节点x和y之间的所有通信记录;
步骤3:将通信对内的Flow数据记录按流的开始时间进行排序,根据前后两条流的开始时间之差计算时间间隔,新增时间间隔字段,形成新的通信对NF′(x→y);
步骤4:根据每条Flow数据中包含的字段,将NF′(x→y)内的Flow序列拆解成对应的属性值序列,每个字段对应一个属性值序列AVS;
步骤5:利用空间金字塔池化方法,对每个属性值序列AVS进行编码,将其编码成定长数据;
步骤6:在对每个属性值序列AVS编码后,将其拼接,形成原始特征向量FV;
步骤7:将原始特征向量FV进行归一化,生成统一的原始特征向量FV′,作为对任何长度的流记录序列的编码数据;
所述步骤5中基于空间金字塔池化方法进行数据编码的计算过程为:
步骤51:将各属性值序列AVS依次平均分割成1、2、4、8、……、2L-1块,L表示金字塔的层数;
步骤52:分别计算每块数据的平均数、总数和众数,从每块数据中抽取出3个值;
步骤53:将这些值进行拼接,每个属性值序列AVS将产生3*(2L-1)个值。
2.根据权利要求1所述的适用于深度学习的通信数据编码方法,其特征在于,所述步骤2之后还包括:过滤掉Flow记录数小于2L-1的通信对。
3.根据权利要求1所述的适用于深度学习的通信数据编码方法,其特征在于,对通信对内长度不定的Flow数据进行编码时,同时保留通信节点间通信行为的空间特性和时间特性;对于对应的属性值的统计情况和分布情况的字段进行了进一步的选择,将源端口、目的端口、字节数、包数字段加入到待编码字段中;
对于与通信时间相关以及各类字段对应的属性值随时间变化的趋势的字段进行进一步处理:将通信对内的Flow记录按time字段从小到大进行排序,根据前后两条流的time之差计算时间间隔,同时将时间间隔和持续时间字段加入到待编码字段中。
4.根据权利要求1所述的适用于深度学习的通信数据编码方法,其特征在于,所述步骤7中将原始特征向量FV进行归一化采用Z-score标准化方法,计算函数为:
式中,x为原始特征向量初始值,x*为原始特征向量标准值;μ为均值,σ为标准差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810996375.6/1.html,转载请声明来源钻瓜专利网。