[发明专利]一种被动物联网设备识别方法、系统、介质及设备有效
申请号: | 202110373243.X | 申请日: | 2021-04-07 |
公开(公告)号: | CN113328985B | 公开(公告)日: | 2022-12-09 |
发明(设计)人: | 范建存;杨涛 | 申请(专利权)人: | 西安交通大学 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06V10/774;G06V10/764;G06K9/62 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 被动 联网 设备 识别 方法 系统 介质 | ||
1.一种被动物联网设备识别方法,其特征在于,包括以下步骤:
S1、建立智能物联网设备环境,构建智能环境时,考虑同一类型物联网设备的分类情况,统一厂商不同设备的分类情况以及物联网设备和非物联网设备的分类情况,利用熵值的变化筛选特征维度;
S2、解析步骤S1建立的智能物联网设备环境中物联网设备发送的数据包,利用熵的形式以及设备特性和协议特性筛选相关特征,剔除无目的数据包,抛弃虚假数据包和噪音数据包,保留有效数据包作为后续处理用数据集,
抓取测试环境网关中数据流量,并依据物联网通信协议16个维度特征进行解析,得到16个维度特征对应的属性值并量化去重,生成测试数据集;
熵Ent(D)是随机变量不确定性的度量,代表该变量的不确定性相对平稳,
条件熵Ent(D|A)表示已知随机变量A的条件下,随机变量D的不确定性;定义为A给定条件下D的条件概率分布的熵对A的数学期望;
S3、采集智能物联网设备环境中各种物联网设备发送和接收的数据包以及截取路由设备产生的数据包,根据设备特性和协议特性对流量包的协议特征对步骤S2生成的数据集进行处理,利用wireshark扫描pcap包,对不同设备使用的网络协议进行划分,利用具有设备特征的网络协议作为区分手段,将划分的网络协议参数作为继续识别的特征维度,构造整个物联网设备识别的具有16位特征的数据集;
利用wireshark提取数据中MAC地址作为标签;根据网络层、传输层和应用层的特征对数据集进行分类,再进行特征提取,根据协议构造的流量包中的数据建立特征维度,并对缺失值进行统一处理,对特征进行重新量化,最后总结出具有16个特征维度的数据集;
S4、利用C4.5算法对步骤S3解析出的数据集进行十折交叉拆分,将拆分的数据集输入自适应Boost中得到多个C4.5弱分类器,将弱分类器结合成为强分类器,对强分类器得出的结果进行加权投票,将加权投票票数最高的类别输出为结果,完成物联网设备识别;
利用十字交叉拆分将具有16位特征的数据集划分为9个训练集和1个测试集,将9个训练集输入自适应Boost中得到多个C4.5弱分类器;引入信息增益比的概念,从候选划分属性中找出信息增益比高于平均水平的属性,再从中选择增益比最高的,递归完成树的构建,树的每个叶子结点即为最终识别结果,信息增益比g(D,A)为:
g(D,A)=Ent(D)-Ent(D|A)
其中,Ent(D)为熵,Ent(D|A)为条件熵;
步骤S4完成后,利用剩余的1个测试集进行验证,将分类正确和分类错误的设备进行统计计算,采用准确率、真正率、假正率和召回率对步骤S4的识别结果进行评价,定义预测正确的结果占总样本的百分比为准确率;定义样本正确判断所占的比例值为真正率,定义分类算法把其它应用类型错误判断为实际类型的比例为假正率,利用十折交叉验证进行准确性验证,然后采取真实数据判断识别效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110373243.X/1.html,转载请声明来源钻瓜专利网。