[发明专利]基于去中心化应用加密流量特征的多场景分类方法及系统有效
申请号: | 202011159375.4 | 申请日: | 2020-10-27 |
公开(公告)号: | CN112381119B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 李镇;李真真;王宇;熊刚;扶佩佩;杨青娅;崔明鑫 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F18/2431 | 分类号: | G06F18/2431;H04L9/40 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 余功勋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 中心 应用 加密 流量 特征 场景 分类 方法 系统 | ||
1.一种基于去中心化应用加密流量特征的多场景分类方法,其步骤包括:
1)收集去中心化应用的加密流量,并对各加密流量标记应用、用户行为和通用用户行为的分类标签;
2)根据分类目标和分类标签,将提取的加密流量的应用特征、用户行为特征和通用用户行为特征,分别输入应用分类模型、用户行为分类模型和通用用户行为分类模型,得到相应的分类;其中,所述应用特征包括:时间序列和包长分布;所述用户行为特征包括:去中心化应用特征、行为敏感特征和优化特征;所述通用用户行为特征包括:去中心化应用特征、通用行为敏感特征、统计特征和序列特征;所述去中心化应用特征包括:时间序列和包长分布;所述行为敏感特征包括:字节分布、包到达总时间、包到达平均时间;所述优化特征包括:优化后的包到达间隔序列;所述通用行为敏感特征包括:字节分布;所述统计特征包括:上下行包数、第一个包到达时间、包到达间隔序列、字节速率变化和包速率;所述序列特征包括:上行时间序列和下行时间序列;通过以下步骤得到应用分类模型、用户行为分类模型和通用用户行为分类模型:
a)收集已知去中心化应用、已知用户行为分类和已知通用用户行为分类的样本加密流量,并对各样本加密流量标记应用、用户行为和通用用户行为的分类标签;
b)针对不同的分类标签,提取样本加密流量的样本应用特征、样本用户行为特征和样本通用用户行为特征;
c)对样本应用特征、样本用户行为特征和样本通用用户行为特征,分别进行机器学习分类器训练,得到应用分类模型、用户行为分类模型和通用用户行为分类模型。
2.如权利要求1所述的方法,其特征在于,提取加密流量的应用特征、用户行为特征和通用用户行为特征之前,对加密流量进行预处理;所述预处理包括:过滤没有Client Hello包或无SNI字段的加密流量、过滤各加密流量中的ACK包和重传数据包。
3.如权利要求1所述的方法,其特征在于,将提取的加密流量的应用特征、用户行为特征和通用用户行为特征分别输入应用分类模型、用户行为分类模型和通用用户行为分类模型之前,对应用特征、用户行为特征和通用用户行为特征进行预处理;所述预处理包括:去除全零列和归一化。
4.如权利要求1所述的方法,其特征在于,所述已知去中心化应用包括:市场类、社交类、财产类、交易类和媒体类;所述市场类包括:Superrare、Thomas Crown Art和Knownorigin;所述社交类包括:Editional、Cryptoboiler、Ethlance和Crowdholding;所述财产类包括:John Orion Young和Staybit;所述交易类包括:Latium;所述媒体类包括:Viewly;所述已知用户行为分类包括:评论、关注、点赞、搜索、加入购物车、租用、发表问题、提交求职申请、提交招聘申请、看视频、上传视频、查看用户详细信息、查看物品详细信息、浏览商店和浏览活动;所述已知通用用户行为分类包括:打开去中心化应用、浏览市场、查看详细信息、关注、点赞、提交申请表、搜索、查看用户首页、查看去中心化应用中活动、加入购物车、看视频、评论、查看去中心化应用介绍、刷新购物车和其他行为。
5.如权利要求1所述的方法,其特征在于,所述机器学习分类器包括:决策树模型、梯度提升决策树模型或随机森林模型。
6.如权利要求5所述的方法,其特征在于,根据分类的准确率和召回率,选择决策树模型、梯度提升决策树模型或随机森林模型。
7.如权利要求6所述的方法,其特征在于,得到分类的准确率和召回率的方法包括:十折交叉验证方法。
8.一种基于去中心化应用加密流量特征的多场景分类系统,包括:
1)去中心化应用流量收集模块,用以收集加密的去中心化应用流量,并对各加密流量标记应用、用户行为和通用用户行为的分类标签;
2)多场景下加密流量特征提取模块,用以根据分类目标和分类标签,提取加密流量的应用特征、用户行为特征和通用用户行为特征;
3)多场景下加密流量分类模块,用以将提取的加密流量的应用特征、用户行为特征和通用用户行为特征,分别输入应用分类模型、用户行为分类模型和通用用户行为分类模型,得到相应的分类;其中,所述应用特征包括:时间序列和包长分布;所述用户行为特征包括:去中心化应用特征、行为敏感特征和优化特征;所述通用用户行为特征包括:去中心化应用特征、通用行为敏感特征、统计特征和序列特征;所述去中心化应用特征包括:时间序列和包长分布;所述行为敏感特征包括:字节分布、包到达总时间、包到达平均时间;所述优化特征包括:优化后的包到达间隔序列;所述通用行为敏感特征包括:字节分布;所述统计特征包括:上下行包数、第一个包到达时间、包到达间隔序列、字节速率变化和包速率;所述序列特征包括:上行时间序列和下行时间序列;
通过以下步骤得到应用分类模型、用户行为分类模型和通用用户行为分类模型:
a)收集已知去中心化应用、已知用户行为分类和已知通用用户行为分类的样本加密流量,并对各样本加密流量标记应用、用户行为和通用用户行为的分类标签;
b)针对不同的分类标签,提取样本加密流量的样本应用特征、样本用户行为特征和样本通用用户行为特征;
c)对样本应用特征、样本用户行为特征和样本通用用户行为特征,分别进行机器学习分类器训练,得到应用分类模型、用户行为分类模型和通用用户行为分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011159375.4/1.html,转载请声明来源钻瓜专利网。