[发明专利]基于潜在语义索引的上网行为分析方法、系统和介质在审
申请号: | 202011571954.X | 申请日: | 2020-12-27 |
公开(公告)号: | CN112686050A | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 张强;喻波;王志海;魏力;谢福进 | 申请(专利权)人: | 北京明朝万达科技股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/216;G06F16/955;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100142 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 潜在 语义 索引 上网 行为 分析 方法 系统 介质 | ||
本发明提供一种基于潜在语义索引的上网行为分析方法、系统和介质。所述方法包括:步骤S1、基于用户历史上网日志来确定所述用户的上网行为的潜在语义特征矩阵;步骤S2、利用所述潜在语义特征矩阵来计算所述用户的上网行为的行为链;以及步骤S3、根据所述行为链构建LSTM深度神经网络模型,以检测所述用户的异常上网行为。该方法能够有效对上网日志数据进行分析,对网址的特征进行相关性计算,刻画用户上网行为画像,构建上网异常行为链,并采用机器学习深度挖掘潜在特征,识别出数据中的异常行为,并能够不断迭代、优化和持续改进,从而实现了及时应急响应和处置。
技术领域
本发明涉及语义索引领域,尤其是涉及一种基于潜在语义索引的上网行为分析方法、系统和介质。
背景技术
互联网给工作带来极大的便利,如果缺乏有效的管理,将会给业务带来各种风险,如信息泄漏、网络攻击、工作效率低下等。基于网页语义特征的用户上网行为分析以用户为视角,从规则分析转变为关联分析、行为建模、异常分析,基于大数据驱动、安全分析和机器学习,以用户为视角,通过刻画用户行为,将内部违规操作、窃取数据、非法删除等异常行为与正常行为进行关联分析,行为建模,准确地描述出行为细节,从而提高了命中异常事件的准确率,弥补了传统行为分析无法及时监测内部威胁的不足,有效分析用户上网的行为习惯,对用户上网实行监管。
目前针对用户上网行为分析,主要是采用基于规则和专家经验,对用户的上网历史日志进行增量式爬虫,将网页进行分析后匹配规则,通过人为设定阈值对行为进行检测,但是这种方法工作量大,会导致大量的噪声和误报。现有的上网行为分析技术一般通过利用机器学习驱动,从上网日志中发现异常的行为。但是目前该方法应用并不能确定具体的异常行为场景,对于异常上网行为不能实现有效管控。具体地,通过网页的URL类别进行划分,并对网页进行信息抽取,获得有效链接;然后对链接主题进行相关性判定,计算与主题有关的URL权重,建立URL的主题类别标签映射表。最后将用户上网行为产生的URL与所述映射表进行匹配,最终获得用户上网行为标签。以上采用URL的类别进行上网行为分析的方法依赖于类别判定规则,易受类别噪声干扰,标签的定义不能充分说明用户的行为异常。
发明内容
本发明的目的在于提供一种基于潜在语义索引的上网行为分析方案,以解决现有技术中存在的上述技术问题。该方案能够有效对上网日志数据进行分析,对网址的特征进行相关性计算,刻画用户上网行为画像,构建上网异常行为链,并采用机器学习深度挖掘潜在特征,识别出数据中的异常行为,并能够不断迭代、优化和持续改进,从而实现了及时应急响应和处置。
本发明第一方面提供了一种基于潜在语义索引的上网行为分析方法,所述方法包括:步骤S1、基于用户历史上网日志来确定所述用户的上网行为的潜在语义特征矩阵;步骤S2、利用所述潜在语义特征矩阵来计算所述用户的上网行为的行为链;以及步骤S3、根据所述行为链构建LSTM深度神经网络模型,以检测所述用户的异常上网行为。
根据本发明第一方面提供的方法,在所述步骤S1中:获取所述用户的历史上网日志中的URL和所述URL对应的网页文本;基于所述URL和所述URL对应的网页文本来确定网页语义特征矩阵,所述网页语义特征矩阵用于表征所述用户的上网行为特征;以及对所述网页语义特征矩阵进行奇异值分解和降维处理,来重构所述网页语义特征矩阵,以获得基于潜在语义空间的所述潜在语义特征矩阵;其中,对于所述网页语义特征矩阵,矩阵行为所述网页文本中的词语,矩阵列为所述URL,矩阵值为所述词语在所述URL中出现的频次。
根据本发明第一方面提供的方法,在所述步骤S2中,利用所述潜在语义特征矩阵来计算所述用户的上网行为基线;以及根据所述上网行为基线来确定所述用户的上网行为偏差,以构建所述用户的上网行为的行为链,其中所述行为链中的值为所述URL的行为偏差值。
根据本发明第一方面提供的方法,所述方法还包括,更新所述网页语义特征矩阵,将所述用户新访问的URL添加至所述网页语义特征矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明朝万达科技股份有限公司,未经北京明朝万达科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011571954.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可困住野兽的LED手电筒
- 下一篇:一种对老年患者进行供氧的助行器