[发明专利]一种基于校园网流量的用户画像方法及系统在审
申请号: | 201811217041.0 | 申请日: | 2018-10-18 |
公开(公告)号: | CN109359686A | 公开(公告)日: | 2019-02-19 |
发明(设计)人: | 李卫;张晛磊 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 徐文权 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 校园网 画像 分类器 预处理 分析数据 流量数据 使用机器 网络威胁 学习算法 异常用户 整体状态 网络 可视化 排查 清洗 采集 响应 监测 优化 维护 | ||
本发明提出了一种基于校园网流量的用户画像方法及系统,采集校园网中的流量数据,对数据进行清洗和预处理,使用机器学习算法建立分类器,训练并优化分类器,分析数据集中网络的整体状态,使用训练好的分类器对校园网中的用户进行用户画像,将用户画像结果可视化呈现给管理员,提高了网络的稳定性,方便管理员进行网络的监测和维护,能对突发的网络威胁或异常用户进行及时的排查与响应。
技术领域
本发明属于数据分析与互联网技术的交叉领域,特别涉及一种基于校园网流量的用户画像方法及系统。
背景技术
随着互联网的发展,网络中产生的数据越来越多,特征工程和机器学习算法的出现,使得分析数据变得越来越方便,此外,通过分析数据得到的结果也越来越有价值。
用户画像实际上是特征工程的一种应用,其目的是通过分析用户产生的数据,挖掘其中隐藏的价值信息,分析和总结用户的特征行为。构建用户画像的关键点,是利用存储在数据库里的海量的用户数据进行整理、挖掘和分析,然后通过训练模型,对用户行为进行分类,给用户贴“标签”,从而达到用户画像的方法。
目前常用的用户画像方法是根据用户人口学特征、网络访问行为、社交行为和消费行为等信息而抽象出的一个标签化的用户模型。
但是,传统的方法,仍存在一些不足,首先,是数据的真实性保证问题,许多方法中数据来源于多种渠道,这样会导致数据源混乱,数据格式不统一,信息来源不准确等问题,从而影响到分析的结果。其次,部分方法的数据源存在局部性问题,由于运营商或应用之间的封闭性,很多方法很难获得用户所有的数据,使得分析无法在用户整个网络活动范围内进行,从而无法准确的进行用户画像。另外对数据分类所选择的方法也极为重要,传统的基于统计的方法和单一的机器学习分类方法都不能很好地对数据进行准确的分类。
发明内容
针对以上问题,本发明提供了一种基于校园网流量的用户画像方法及系统,解决上述面临的问题。本发明是在校园网服务的基础上,通过采集,集成校园网内用户的网络行为数据,然后使用多种机器学习方法,建立并训练针对校园网流量的用户画像模型。并将画像结果可视化呈现给网络管理员,方便网络管理员快速查看网络状态,及时发现网络威胁并作出响应。
为实现上述目的,本发明采用的技术方案如下:
首先通过流量捕获工具,在校园网的服务器上采集流量,包括用户的访问数据和行为数据,如访问时间,访问频率,访问地址,访问链接等;然后将采集到的数据进行清洗和预处理,选择最能反映网络状态和用户行为的特征;在预处理好的数据中选择一些具有代表性的数据进行人工标记,生成训练样本,将训练样本放到贝叶斯分类器和SVM分类器中,建立机器学习模型,并进行训练和优化。然后使用训练好的模型对其他数据进行训练和分类,按照结果生成用户画像,将用户画像的结果可视化呈献给管理员,并指出是否在网络中存在安全隐患。
具体的,本发明一种基于校园网流量的用户画像方法,包括以下步骤:
1)数据采集阶段:通过采集校园网服务器中的流量数据,对采集到的数据进行清洗和预处理;
2)建模阶段:分析并处理数据,选择能准确描述网络状态和用户行为的特征,结合相关机器学习算法生成模型,并对模型进行训练和优化;
3)数据画像阶段:使用训练好的模型对整体运行状态和用户数据分别进行分析,从多个方向描述网络状态及用户行为特征;
4)应用及分析阶段:对数据画像得到的结果进行分析,并将分析结果可视化呈现给网络管理员,方便管理员能够更好地管理网络,监控网络状态,同时能够对有异常行为的用户进行分析查看并作出响应。
作为本发明的进一步改进,步骤1)中,所述的流量数据包括校园网中的用户的起始访问时间点、访问持续时间、访问目标、访问数据量的大小以及访问内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811217041.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于特征选择的多模态数据分类方法
- 下一篇:视频风格转换处理方法和装置