[发明专利]一种基于CatBoost算法的智能锁异常检测方法在审
申请号: | 201811133451.7 | 申请日: | 2018-09-27 |
公开(公告)号: | CN109409410A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 舒海东;王进;胡峰 | 申请(专利权)人: | 智庭(北京)智能科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/00 |
代理公司: | 北京久维律师事务所 11582 | 代理人: | 邢江峰 |
地址: | 100089 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能锁 异常检测 算法 数据预处理操作 预处理 机器学习模型 信息安全隐患 基本信息 模型融合 提取特征 行为数据 窃取 预测 记录 分析 | ||
1.一种基于CatBoost算法的智能锁异常检测方法,其特征在于:包括如下步骤:
Q1、数据预处理操作,对智能锁基本信息数据和智能锁记录的行为数据的处理,使数据格式归一化,标准化;
Q2、依据“留出法”对数据划分操作,将历史数据划分为训练集和测试集,目的在于探寻历史数据训练集中数据内在联系;
Q3、根据训练集和测试集进行特征工程构建操作,特征采用基本信息特征、基础统计特征、时序特征、交叉特征,建立算法模型;
Q4、建立多个机器学习模型,并进行模型融合操作,用构建完特征的训练集去训练7个CatBoost模型:
CatBoost模型分别对所述的基本信息特征、基础统计特征、时序特征、交叉特征进行特征选择,按照特征重要性排序,在基本信息特征中选取特征重要性大于0的特征,在基础统计特征中选取特征重要性大于10的特征,在时序特征中选取特征重要性大于0的特征,在交叉特征中选择特征重要性大于20的特征,使得在充分表征样本信息的同时降低模型的复杂度;
CatBoost模型参数用默认参数乘以随机系数,系数范围为0.6~0.8,从而生成7个不同的CatBoost模型,这些CatBoost模型以stacking进行模型融合,Stacking模型融合的过程如下:用线性回归以七折交叉拟合每一折得到7个系数,以这7个系数的均值作为该CatBoost的融合系数作为stacking的第一层,再以这多个CatBoost模型进行训练,得到7个CatBoost的预测结果,将预测结果乘上各自的融合系数,求和得到最终概率,过程如下:
①分别对7个模型调用线性回归得到每一折的预测结果:其中ym_n predict表示第m个模型第n折的预测结果,wm_n_z表示第m个模型的第n折的第z个线性回归系数:
……
②将7个模型的预测结果作为x,该训练集每一折的真实标签作为y,再次调用线性回归模型:
③则7个模型最终的融合系数为:
……
2.根据权利要求1所述的一种基于CatBoost算法的智能锁异常检测方法,其特征在于:所述Q1中,对智能锁基本信息数据和智能锁记录的行为数据的处理包括:
对异常值进行清洗,智能锁基本信息记录了智能锁所在楼层,删除其中楼层过大的样本;
对低频值进行替换,智能锁基本信息记录了智能锁所在城市,将在整个数据集中只出现了一次的城市数据替换为一个相同的值;
对空值进行填充,智能锁记录的行为数据中的开锁方式,开锁方式为空值,将空值以众数即最常用的开锁方式填充,智能锁记录的行为数据中的行为时间,行为时间为空值,将空值以中位数即该智能锁所有行为时间中最中间的值进行填充:
首先以智能锁的ID进行分组,对每组的时间按从小到大排序:
time1≤time2≤time3≤…≤timen
则缺失的时间(timenull)填充为:
3.根据权利要求1或2所述的一种基于CatBoost算法的智能锁异常检测方法,其特征在于:所述Q2中,将数据集划分为两个互斥的子集,一个集合作为训练集S,包含70%的样本,另一个作为测试集T,包含30%的样本,即假设数据集为D,则D=S∪T,在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计,训练集和测试集需要保留基本一致的正负样本比例。
4.根据权利要求3所述的一种基于CatBoost算法的智能锁异常检测方法,其特征在于:所述Q3中,所述基本信息特征、基础统计特征、时序特征、交叉特征为:
基本信息特征:智能锁的品牌信息、城市信息、楼层信息,及其相互的labelencoder编码信息;
所述Labelencoder编码,按字符串的形式连接品牌与城市、品牌与楼层、城市与楼层、品牌与城市与楼层,再将其编码为从基础数开始的序列。
基础统计特征:智能锁分别用指纹解锁、手机蓝牙解锁、密码解锁、实体钥匙解锁、纽扣蓝牙钥匙解锁的总次数、方差、中位数、偏度、峰度,及其解锁成功的总次数、方差、中位数、偏度、峰度;
时间序列特征:智能锁每天最早一次和最晚一次解锁的时间差的方差、中位数、偏度、峰度,及其解锁成功的时间差的方差、中位数、偏度、峰度;智能锁在整个数据集中的最早一次解锁和最晚一次解锁的时间差,及其最早一次解锁成功和最晚一次解锁成功的时间差;智能锁每两次解锁的平均时间差,及其每两次解锁成功的平均时间差;连续解锁成功的最大次数;连续解锁不成功的最大次数;最晚一次解锁的时间与智能锁安装时间的时间差;
交叉特征:指纹解锁成功的次数占指纹解锁次数的比例,手机蓝牙解锁成功的次数占手机蓝牙解锁次数的比例,密码解锁成功的次数占密码解锁次数的比例,实体钥匙解锁成功的次数占实体钥匙解锁次数的比例,纽扣蓝牙钥匙解锁成功的次数占纽扣蓝牙钥匙解锁次数的比例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智庭(北京)智能科技有限公司,未经智庭(北京)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811133451.7/1.html,转载请声明来源钻瓜专利网。