[发明专利]一种APP流量自动识别模型构建方法有效
申请号: | 201810346473.5 | 申请日: | 2018-04-17 |
公开(公告)号: | CN108650195B | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 蒋言;李维;杨铃;张先勇;汪洋;彭艳兵;李华蓉 | 申请(专利权)人: | 南京烽火星空通信发展有限公司 |
主分类号: | H04L12/859 | 分类号: | H04L12/859;H04L12/851;G06F8/74;G06F8/75;G06K9/62;H04L29/12 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 杨海军 |
地址: | 210019 江苏省南京市建*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 app 流量 自动识别 模型 构建 方法 | ||
本发明公开了一种APP流量自动识别模型构建方法,包括:获取APP的应用程序包;由应用程序包获取APP的服务器IP地址;由IP地址进行设定时间段内的流量精准筛选,获取APP流量自动识别模型建立所需的训练数据;由训练数据构建特征选取方法和学习过程;为每个APP构建一个对应的二分类器,对于未知类别的流量数据,经数据预处理之后放入二分类器,输出概率最高的APP类别,判断为该未知流量的APP类别。本发明极大的减少人工提取特征的过程,可实现通过已知类别流量数据的学习而完成对未知流量数据类别判定的目标。
技术领域
本发明公开了一种APP流量自动识别模型构建方法,涉及网络通信领域。
背景技术
在网络通信领域中,大型企业网关对本企业互联网流量进行监控必不可少,互联网上APP流量的有效识别能协助企业网关对该应用的流量进行管理控制,避免造成网络拥塞等情况。传统识别方法是通过人工提取流量特征来构建识别模型,但是随着APP种类和协议类型复杂性的不断增加,以及实际应用中APP版本不断地更新,人工提取出的流量特征可能会随着版本更新等原因发生变化,人工构建模型的准确度和可扩展性也会随之大大下降。
发明内容
本发明所要解决的技术问题是:针对现有技术的缺陷,提供一种APP流量自动识别模型构建方法,采用反编译APP的方法对APP的流量数据进行聚类及精准筛选,减少人工过程。对精准筛选后的流量数据进行打标和特征工程,使用XGBoost算法对特征进行机器学习并建立二分类模型,对于未知APP类别的流量数据使用多个二分类模型进行判别,选取分类概率最高的APP类别判断为该未知流量的类别。
本发明为解决上述技术问题采用以下技术方案:
一种APP流量自动识别模型构建方法,所述方法的具体步骤包括:
步骤一、获取APP的应用程序包;
步骤二、由上述应用程序包获取APP的服务器IP地址;
步骤三、由上述IP地址进行设定时间段内的流量精准筛选,获取APP流量自动识别模型建立所需的训练数据;
步骤四、由上述训练数据构建特征选取方法和学习过程;
步骤五、为每个APP构建一个对应的二分类器,对于未知类别的流量数据,经数据预处理之后放入二分类器,输出概率最高的APP类别,判断为该未知流量的APP类别。
作为本发明的进一步优选方案,所述步骤二具体包括:
由APP的应用程序包获取其APK文件;
采用ApkTool及AXMLPrinter2工具解析APK中的AndroidManifest.xml文件;
从AndroidManifes.xml文件中获取该APK对应的域名;
通过ipip.net解析域名对应服务器IP地址的IP池。
作为本发明的进一步优选方案,步骤三所述的流量精准筛选的方法具体包括:
采用monkey或monkeyRunner工具,进行APK文件的自启动运行;
采用tcpdump或wireshark工具,进行APK文件运行的自动抓包,生成pcap文件;
对pcap文件进行数据报文流数据重组;
解析pcap文件获取五元组信息;
根据APP对应的IP池和pcap解析出的五元组信息,完成流数据的聚类,得到每类APP的精准训练数据。
作为本发明的进一步优选方案,所述pcap文件的五元组信息包括:源IP,源端口号,目的IP,目的端口号,传输层协议。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810346473.5/2.html,转载请声明来源钻瓜专利网。