[发明专利]一种基于校园网流量的用户画像方法及系统在审
申请号: | 201811217041.0 | 申请日: | 2018-10-18 |
公开(公告)号: | CN109359686A | 公开(公告)日: | 2019-02-19 |
发明(设计)人: | 李卫;张晛磊 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 徐文权 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 校园网 画像 分类器 预处理 分析数据 流量数据 使用机器 网络威胁 学习算法 异常用户 整体状态 网络 可视化 排查 清洗 采集 响应 监测 优化 维护 | ||
1.一种基于校园网流量的用户画像方法,其特征在于,包括以下步骤:
1)数据采集阶段:通过采集校园网服务器中的流量数据,对采集到的数据进行清洗和预处理;
2)建模阶段:分析并处理数据,选择能准确描述网络状态和用户行为的特征,结合相关机器学习算法生成模型,并对模型进行训练和优化;
3)数据画像阶段:使用训练好的模型对整体运行状态和用户数据分别进行分析,从多个方向描述网络状态及用户行为特征;
4)应用及分析阶段:对数据画像得到的结果进行分析,并将分析结果可视化呈现给网络管理员,方便管理员能够更好地管理网络,监控网络状态,同时能够对有异常行为的用户进行分析查看并作出响应。
2.根据权利要求1所述的基于校园网流量的用户画像方法,其特征在于,步骤1)中,所述的流量数据包括校园网中的用户的起始访问时间点、访问持续时间、访问目标、访问数据量的大小以及访问内容。
3.根据权利要求1所述的基于校园网流量的用户画像方法,其特征在于,步骤2)中,在处理数据时,首先选取具有代表性的数据进行人工标记,生成训练样本,之后使用标记好的数据训练分类器,同时使用多个分类器对不同类型的数据集分别进行分类,直到分类器产生较好的分类效果,然后将训练好的分类器保存到磁盘中。
4.根据权利要求1所述的一种基于校园网流量的用户画像方法,其特征在于,步骤3)中,所述的多方面描述网络状态包括描述该时段内产生的网络流量总量、网络访问总次数及网络访问峰值;所述的用户行为特征包括用户的网络地址、网络访问时间、网络访问频率、网络访问链接、网络访问内容和网络访问量。
5.根据权利要求1所述的一种基于校园网流量的用户画像方法,其特征在于,步骤3)中,主要进行的是针对校园网数据中的每个用户进行用户画像,将用户的流量数据和网站访问历史数据放入各自训练好的的分类器中,分析得出每个用户的行为特征,并打上对应的标签进行标记分类,每个用户可以根据分类的结果打上多个标签。
6.根据权利要求1所述的一种基于校园网流量的用户画像方法,其特征在于,所述的数据画像得到的结果包括用户行为标签、用户网络行为特征及用户潜在安全威胁。
7.一种基于校园网流量的用户画像系统,其特征在于,包括:
数据采集模块,用于采集校园网服务器中的流量数据,对数据进行采集,清洗和预处理;
建模模块,用于分析并预处理数据,寻找最能描述网络和用户行为的特征,结合相关机器学习算法生成模型,并对模型进行训练和优化;
数据画像模块,用于使用训练的模型对整体和用户数据分别进行分析,从多个方向描述网络状态及用户行为特征;
应用及分析模块,用于对数据画像得到的结果进行分析,并将分析结果可视化呈现给网络管理员,方便管理员能够更好地管理网络,监控网络,同时可对异常用户进行分析查看并作出响应。
8.根据权利要求7所述的基于校园网流量的用户画像系统,其特征在于,所述的数据采集模块包括:
校园网数据处理单元:用于在捕获流量数据的过程中将采集校园网中不同种类的数据;
存储数据单元:用于使用Hadoop分布式框架来存放并访问数据,将采集到的多种数据分布式存储在Hadoop集群中,使用Hbase随时查看并调用,同时结合Hadoop生态中其他的软件协调合作共同管理数据。
9.根据权利要求7所述的基于校园网流量的用户画像系统,其特征在于,所述的数据采集模块包括:
预处理数据单元,用于去掉对分析无用的字段,对部分数据格式进行转换;
训练模型单元,用于使用机器学习算法,生成分类器,并对流量进行初步的人工标注,然后使用标注好的数据训练并优化模型。
10.根据权利要求7所述的基于校园网流量的用户画像系统,其特征在于,所述的数据画像模块包括:
整体数据分析单元,用于对当前状态下的网络数据进行整体的分析;
用户画像及标签化单元,用于使用训练好的模型和数据对用户进行标签化,生成用户画像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811217041.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于特征选择的多模态数据分类方法
- 下一篇:视频风格转换处理方法和装置