[发明专利]一种基于CatBoost算法的智能锁异常检测方法在审

专利信息
申请号: 201811133451.7 申请日: 2018-09-27
公开(公告)号: CN109409410A 公开(公告)日: 2019-03-01
发明(设计)人: 舒海东;王进;胡峰 申请(专利权)人: 智庭(北京)智能科技有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06N20/00
代理公司: 北京久维律师事务所 11582 代理人: 邢江峰
地址: 100089 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 智能锁 异常检测 算法 数据预处理操作 预处理 机器学习模型 信息安全隐患 基本信息 模型融合 提取特征 行为数据 窃取 预测 记录 分析
【权利要求书】:

1.一种基于CatBoost算法的智能锁异常检测方法,其特征在于:包括如下步骤:

Q1、数据预处理操作,对智能锁基本信息数据和智能锁记录的行为数据的处理,使数据格式归一化,标准化;

Q2、依据“留出法”对数据划分操作,将历史数据划分为训练集和测试集,目的在于探寻历史数据训练集中数据内在联系;

Q3、根据训练集和测试集进行特征工程构建操作,特征采用基本信息特征、基础统计特征、时序特征、交叉特征,建立算法模型;

Q4、建立多个机器学习模型,并进行模型融合操作,用构建完特征的训练集去训练7个CatBoost模型:

CatBoost模型分别对所述的基本信息特征、基础统计特征、时序特征、交叉特征进行特征选择,按照特征重要性排序,在基本信息特征中选取特征重要性大于0的特征,在基础统计特征中选取特征重要性大于10的特征,在时序特征中选取特征重要性大于0的特征,在交叉特征中选择特征重要性大于20的特征,使得在充分表征样本信息的同时降低模型的复杂度;

CatBoost模型参数用默认参数乘以随机系数,系数范围为0.6~0.8,从而生成7个不同的CatBoost模型,这些CatBoost模型以stacking进行模型融合,Stacking模型融合的过程如下:用线性回归以七折交叉拟合每一折得到7个系数,以这7个系数的均值作为该CatBoost的融合系数作为stacking的第一层,再以这多个CatBoost模型进行训练,得到7个CatBoost的预测结果,将预测结果乘上各自的融合系数,求和得到最终概率,过程如下:

①分别对7个模型调用线性回归得到每一折的预测结果:其中ym_n predict表示第m个模型第n折的预测结果,wm_n_z表示第m个模型的第n折的第z个线性回归系数:

……

②将7个模型的预测结果作为x,该训练集每一折的真实标签作为y,再次调用线性回归模型:

③则7个模型最终的融合系数为:

……

2.根据权利要求1所述的一种基于CatBoost算法的智能锁异常检测方法,其特征在于:所述Q1中,对智能锁基本信息数据和智能锁记录的行为数据的处理包括:

对异常值进行清洗,智能锁基本信息记录了智能锁所在楼层,删除其中楼层过大的样本;

对低频值进行替换,智能锁基本信息记录了智能锁所在城市,将在整个数据集中只出现了一次的城市数据替换为一个相同的值;

对空值进行填充,智能锁记录的行为数据中的开锁方式,开锁方式为空值,将空值以众数即最常用的开锁方式填充,智能锁记录的行为数据中的行为时间,行为时间为空值,将空值以中位数即该智能锁所有行为时间中最中间的值进行填充:

首先以智能锁的ID进行分组,对每组的时间按从小到大排序:

time1≤time2≤time3≤…≤timen

则缺失的时间(timenull)填充为:

3.根据权利要求1或2所述的一种基于CatBoost算法的智能锁异常检测方法,其特征在于:所述Q2中,将数据集划分为两个互斥的子集,一个集合作为训练集S,包含70%的样本,另一个作为测试集T,包含30%的样本,即假设数据集为D,则D=S∪T,在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计,训练集和测试集需要保留基本一致的正负样本比例。

4.根据权利要求3所述的一种基于CatBoost算法的智能锁异常检测方法,其特征在于:所述Q3中,所述基本信息特征、基础统计特征、时序特征、交叉特征为:

基本信息特征:智能锁的品牌信息、城市信息、楼层信息,及其相互的labelencoder编码信息;

所述Labelencoder编码,按字符串的形式连接品牌与城市、品牌与楼层、城市与楼层、品牌与城市与楼层,再将其编码为从基础数开始的序列。

基础统计特征:智能锁分别用指纹解锁、手机蓝牙解锁、密码解锁、实体钥匙解锁、纽扣蓝牙钥匙解锁的总次数、方差、中位数、偏度、峰度,及其解锁成功的总次数、方差、中位数、偏度、峰度;

时间序列特征:智能锁每天最早一次和最晚一次解锁的时间差的方差、中位数、偏度、峰度,及其解锁成功的时间差的方差、中位数、偏度、峰度;智能锁在整个数据集中的最早一次解锁和最晚一次解锁的时间差,及其最早一次解锁成功和最晚一次解锁成功的时间差;智能锁每两次解锁的平均时间差,及其每两次解锁成功的平均时间差;连续解锁成功的最大次数;连续解锁不成功的最大次数;最晚一次解锁的时间与智能锁安装时间的时间差;

交叉特征:指纹解锁成功的次数占指纹解锁次数的比例,手机蓝牙解锁成功的次数占手机蓝牙解锁次数的比例,密码解锁成功的次数占密码解锁次数的比例,实体钥匙解锁成功的次数占实体钥匙解锁次数的比例,纽扣蓝牙钥匙解锁成功的次数占纽扣蓝牙钥匙解锁次数的比例。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智庭(北京)智能科技有限公司,未经智庭(北京)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811133451.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top