[发明专利]一种适用于深度学习的通信数据编码方法有效
申请号: | 201810996375.6 | 申请日: | 2018-08-29 |
公开(公告)号: | CN109246095B | 公开(公告)日: | 2019-06-21 |
发明(设计)人: | 陈兴蜀;邵国林;曾雪梅;王丽娜;何涛;韩珍辉;文奕 | 申请(专利权)人: | 四川大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/24;G06N3/08 |
代理公司: | 成都禾创知家知识产权代理有限公司 51284 | 代理人: | 裴娟 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种适用于深度学习的通信数据编码方法,对流级通信数据进行预处理,聚合成IP通信对,再对IP通信对内的Flow记录进行排序,并抽取出需要编码的字段及对应的属性值序列;基于金字塔池化方法对各属性值序列进行编码,拼接成原始的特征向量;对形成的原始特征向量进行归一化处理,并应用到深度神经网络中进行验证。本发明能够自动将任何长度的Flow序列编码成定长的原始特征向量,使这类不规则的异构通信数据能够应用于深度学习的场景中;在不需要专家知识介入的情况下,能够充分保留通信行为在时间和空间方面的特性,从而使编码后的数据能够充分代表节点之间的通信特征,从而应用到各类通信行为分析任务中。 | ||
搜索关键词: | 通信数据 原始特征向量 属性值序列 通信行为 应用 预处理 归一化处理 神经网络 特征向量 通信特征 序列编码 异构通信 专家知识 不规则 池化 定长 字段 拼接 学习 金字塔 聚合 排序 对流 取出 验证 场景 保留 记录 分析 | ||
【主权项】:
1.一种适用于深度学习的通信数据编码方法,其特征在于,包括以下步骤:步骤1:将各种格式的流级通信数据进行预处理,规范化成特定的Flow格式,保留信息抽取和编码需要的特定字段;步骤2:将具有相同源IP和目的IP的Flow数据f聚合在一个集合中,形成通信对:NF(x→y)=<f1,f2,…,fn>,一个通信对内的所有Flow数据表示通信节点x和y之间的所有通信记录;步骤3:将通信对内的Flow数据记录按流的开始时间进行排序,根据前后两条流的开始时间之差计算时间间隔,新增时间间隔字段,形成新的通信对NF′(x→y);步骤4:根据每条Flow数据中包含的字段,将NF′(x→y)内的Flow序列拆解成对应的属性值序列,每个字段对应一个属性值序列AVS;步骤5:利用空间金字塔池化方法,对每个属性值序列AVS进行编码,将其编码成定长数据;步骤6:在对每个属性值序列AVS编码后,将其拼接,形成原始特征向量FV;步骤7:将原始特征向量FV进行归一化,生成统一的原始特征向量FV′,作为对任何长度的流记录序列的编码数据;所述步骤5中基于空间金字塔池化方法进行数据编码的计算过程为:步骤51:将各属性值序列AVS依次平均分割成1、2、4、8、……、2L‑1块,L表示金字塔的层数;步骤52:分别计算每块数据的平均数、总数和众数,从每块数据中抽取出3个值;步骤53:将这些值进行拼接,每个属性值序列AVS将产生3*(2L‑1)个值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810996375.6/,转载请声明来源钻瓜专利网。