[发明专利]一种基于K-means聚类和随机森林算法的移动应用程序识别方法在审
申请号: | 201811422296.0 | 申请日: | 2018-11-27 |
公开(公告)号: | CN109726735A | 公开(公告)日: | 2019-05-07 |
发明(设计)人: | 陈丹伟;朱迪 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 210023 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时间序列 数据流 聚类簇 算法 移动应用程序 加密数据流 聚类分析 输出分组 随机森林 统计特征 移动应用 过滤 无监督学习 加密流量 聚类算法 输入分组 数学统计 应用类型 时间段 数据包 数据集 建模 聚类 加密 样本 监督 学习 | ||
1.一种基于K-means聚类和随机森林算法的移动应用程序识别方法,其特征在于,包括如下步骤:
步骤S1、将一个时间段的加密数据流根据TCP会话特点离散化为若干个数据流,每个数据流采用输入分组时间序列、输出分组时间序列和输入输出分组时间序列表示;
步骤S2、对每条数据流对应的三个时间序列进行数学统计,获取数据包的统计特征;
步骤S3、通过K-means聚类算法对加密数据流的统计特征聚类分析;
步骤S4、通过熵的计算方法对聚类分析所得到的每个聚类簇的纯度打分,并过滤掉纯度较低的聚类簇中的样本;
步骤S5、通过随机森立算法对过滤后的聚类簇作为数据集进行建模,实现对加密刘所述移动应用类型的识别。
2.根据权利要求1所述的一种基于K-means聚类和随机森林算法的移动应用程序识别方法,其特征在于,所述步骤S1中离散化的具体步骤如下:
步骤S11、以突发为单位将连续的加密网络流量离散化,突发为时间间隔小于指定阈值的分组;
步骤S12、从每个突发中分离出多个加密数据流,加密数据流由在一个突发中与同一对四元祖相关的分组组成;
步骤S13、将每条数据流用用三哥分组时间序列表示,由数据流中流入的每个分组的包长度按时间顺序排列的序列,即为输入分组时间序列;由数据流中流出的每个分组的包长度按时间顺序排序的顺序,即为输出分组时间序列;由数据流中流入和流出的每个分组按时间顺序排列的序列,即为输入输出分组时间序列。
3.根据权利要求1所述的一种基于K-means聚类和随机森林算法的移动应用程序识别方法,其特征在于,所述步骤S2的具体步骤如下:
步骤S21、对每条数据流对应的每个分组时间序列进行统计特征提取,统计特征包括数据包长度最小值、数据包长度最大值、数据包长度平均值、数据包长度中位数绝对偏差、数据包长度标准偏差、数据包长度方差、数据包长度偏斜、数据包长度峰度、数据包长度百分位数(从10%到90%)以及该分组时间序列中的数据包数量共18个统计特征;
步骤S22、将上述每个分组时间序列对应的统计特征,按输入分组时间序列对应的统计特征、输出分组时间序列对应的统计特征以及输入输出分组时间序列对应的统计特征的顺序组合成长度为54的加密数据流特征向量;
步骤S23、对每条数据流按步骤22处理,直至所有数据流处理完毕。
4.根据权利要求1所述的一种基于K-means聚类和随机森林算法的移动应用程序识别方法,其特征在于,所述步骤S3的具体步骤如下:
步骤S31、通过线型搜索选取聚类簇数量常数k;
步骤S32、以常数k为参数通过K-means聚类算法建模;
步骤S33、获取聚类结果的Dunn指数和轮廓系数,评估聚类效果;
步骤S34、循环步骤S31-步骤S33直至聚类效果达到最佳。
5.根据权利要求1所述的一种基于K-means聚类和随机森林算法的移动应用程序识别方法,其特征在于,所述步骤S4的具体步骤如下:
步骤S41、通过信息熵计算公式计算每个聚类簇的信息熵;
步骤S42、设置熵阈值,过滤超过阈值的熵的聚类簇的样本;
步骤S43、通过随机森林算法建模;
步骤S44、循环上诉步骤、调整熵阈值直至随机森林算法模型的分类效果最佳。
6.根据权利要求1所述的一种基于K-means聚类和随机森林算法的移动应用程序识别方法,其特征在于,所述步骤S5的具体步骤如下:
步骤S51、将经过步骤三和步骤四数据预处理的数据集随机分为训练集、验证集和测试集三个部分;
步骤S52、应用随机森林算法以训练集为数据训练分类器;
步骤S53、用验证集来检测分类器对移动应用类型识别的效果;
步骤S54、调整随机森林中基学习器数量、基学习器中选取属性结点的衡量指标等参数;
步骤S55、循环步骤S52和步骤S53直至分类器对验证集的应用类型识别效果最佳,最终用测试集检测最终模型的识别效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811422296.0/1.html,转载请声明来源钻瓜专利网。