[发明专利]一种基于AI的跨设备上网用户识别方法在审
申请号: | 201810515929.6 | 申请日: | 2018-05-25 |
公开(公告)号: | CN108830052A | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 唐一枭;崔渊博;阿曼太;王宇;金红;杨满智;刘长永 | 申请(专利权)人: | 恒安嘉新(北京)科技股份公司 |
主分类号: | G06F21/31 | 分类号: | G06F21/31;G06F17/30 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 黄玉东 |
地址: | 100191 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 上网 上网用户 跨设备 上网行为 强识别 时间戳数据 构造特征 基础模型 权重训练 时间特征 数据添加 梯度增强 样本检测 用户上网 用户身份 在线学习 统计 识别率 树算法 训练集 准确率 跨屏 样本 回归 更新 身份 分析 保证 学习 | ||
本发明公开了一种基于AI的跨设备上网用户识别方法,所述方法包括:提取不同屏下的每个用户上网的URL数据和时间戳数据,并针对每条数据添加该用户的身份id;分别统计该用户的上网意向特征、强识别URL特征及上网时间特征;根据统计完成的上述三个特征中的一种或者多种建立该用户的基础模型,并通过梯度增强回归树算法对上述每个特征进行权重训练,得到该用户最终的上网行为模型;通过形成的所述上网行为模型,识别出跨屏用户身份。本发明所述的基于AI的跨设备上网用户识别方法,统计与分析了上网意向、强识别url和上网时间等特征,通过使用多种构造特征对样本检测和学习,使用在线学习对识别错的样本加入训练集更新模型,保证了识别率和准确率。
技术领域
本发明属于网络安全及互联网大数据领域,更具体来说,涉及一种基于AI的跨设备上网用户识别方法。
背景技术
目前已经有基于用户账号pin检测跨屏用户身份的方法,当前研究的热点是能够在不使用用户账号pin的情况下识别出跨屏用户身份的基于数据挖掘和机器学习的检测技术。
现有技术方案中,常采用“基于用户账号pin检测跨屏用户身份的方法”来进行检测;但是,在上述方法,存在如下缺点:
1、漏检率较高;2、在缺乏用户账号pin的情况下很难识别出用户身份;3、识别效率较低。
基于对用户上网行为的机器学习算法检测跨屏用户身份的方法,是目前一种新型的检测方法,并且该方法在识别的准确率方面有较大提升。
发明内容
本发明所要解决的问题就是在缺乏用户账号pin的情况下如何准确并高效识别出跨屏用户的身份。
为解决上述技术问题,本发明所采用的技术方案如下:
一种基于AI的跨设备上网用户识别方法,所述方法包括:
步骤S1、提取不同屏下的每个用户上网的URL数据和时间戳数据,并针对每条数据添加该用户的身份id;
步骤S2、分别统计该用户的上网意向特征、强识别URL特征及上网时间特征;
步骤S3、根据统计完成的上述三个特征中的一种或者多种建立该用户的基础模型,并通过梯度增强回归树算法对上述每个特征进行权重训练,得到该用户最终的上网行为模型;
步骤S4、通过形成的所述上网行为模型,识别出跨屏用户身份。
进一步地,在所述步骤S2中,所述上网意向特征的获取方法包括:
通过相似度计算,对用户上网的URL进行归并,将子级URL网址同归到其上一级URL网址,并作为一个上网意向特征。
进一步地,在所述步骤S2中,所述强识别URL特征的获取方法包括:
检测用户不同屏下是否出现相同的URL,如果是,且该URL均指向同一用户,则从该URL提取数据集作为强识别URL特征。
进一步地,在所述步骤S2中,所述上网时间特征的获取方法包括:
检测用户在不同的设备上的上网时间分布规律。
进一步地,所述方法还包括:
根据每次的识别结果,对模型的权重进行相应的更新。
进一步地,所述上网意向特征的获取方法还包括:
统计用户在不同设备下的访问意愿是否存在相似点;
根据不同的用户不同的访问意愿,对用户的上网行为进行切分;
通过对每次上网行为所访问的上网意向进行一次权重匹配,计算出每一个用户的每一个上网意向的权重;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于恒安嘉新(北京)科技股份公司,未经恒安嘉新(北京)科技股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810515929.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种设备锁屏的解锁方法及装置
- 下一篇:一种基于网站式的企业产品管理系统