[发明专利]一种网络日志分析方法及装置有效
申请号: | 201710146476.X | 申请日: | 2017-03-13 |
公开(公告)号: | CN107092650B | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 许珠香 | 申请(专利权)人: | 网宿科技股份有限公司 |
主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/16 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 200030 上海市徐汇区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络日志 分析 方法 装置 | ||
1.一种网络日志分析方法,其特征在于,包括:
获取的设定时长的网络日志,对所述网络日志中每条记录进行数据清洗和统计,得到文档集合,所述文档集合中的每个文档包含访问同一个网站的用户标识;
针对所述文档集合中的每个文档,删除该文档中访问该文档对应的网站的次数少于P的用户标识,P为预设的正整数;
将所述文档集合作为主题模型算法LDA的输入,根据预设的主题集合确定对应主题;
将所述文档集合作为主题模型算法LDA的输入,根据预设的主题集合确定对应主题的具体步骤包括:
所述主题集合为预设的K个主题,根据主题集合得到文档主题群概率和用户主题群概率,所述文档主题群概率表示所述文档集合中的每个文档对应所述主题集合中的每个主题的概率,所述用户主题群概率表示所述文档集合中的每个用户标识对应所述主题集合中的每个主题的概率,K为大于1的整数;
根据所述文档主题群概率,确定所述文档集合中的每个文档对应的主题,以及根据所述用户主题群概率,确定所述文档集合中每个用户标识对应的主题。
2.根据权利要求1所述的方法,其特征在于,将所述文档集合作为主题模型算法LDA的输入,以及根据预设的包含K个主题的主题集合,得到文档主题群概率和用户主题群概率,包括:
根据所述主题集合,为所述文档集合中的每个用户标识随机对应一个主题;
根据所述LDA及所述文档集合中的每个用户标识对应的主题,为所述文档集合中的每个用户标识重新对应一个主题,直至满足迭代停止条件;
根据迭代停止时,每个用户标识所对应的主题,计算得到所述文档主题群概率和所述用户主题群概率。
3.根据权利要求1所述的方法,其特征在于,根据所述文档主题群概率,确定所述文档集合中的每个文档对应的主题,包括:
针对所述主题集合中每个主题,根据所述文档主题群概率,得到所述文档集合中的每个文档对应所述主题的概率;获取对应所述主题的概率最高的L1个文档,并建立获取的L个文档中每个文档与该主题的对应关系,L1为预设的正整数;
根据建立的文档与主题的对应关系,确定每个文档对应的主题;
根据所述用户主题群概率,确定所述文档集合中每个用户标识对应的主题,包括:
针对所述主题集合中每个主题,根据所述用户主题群概率,得到所述文档集合中的每个用户标识对应所述主题的概率;获取对应所述主题的概率最高的L2个用户标识,并建立获取的每个用户标识与该主题的对应关系,L2为预设的正整数;
根据获取的每个用户标识与主题的对应关系,确定每个用户标识对应的主题。
4.根据权利要求1至3任一所述的方法,其特征在于,所述K为所述LDA的困惑度Perplexity收敛时对应的最小主题数值。
5.一种网络日志分析装置,其特征在于,包括:
统计单元,用于获取的设定时长的网络日志,对所述网络日志中每条记录进行数据清洗和统计,得到文档集合,所述文档集合中的每个文档包含访问同一个网站的用户标识;
所述统计单元还用于:
针对所述文档集合中的每个文档,删除该文档中访问该文档对应的网站的次数少于P的用户标识,P为预设的正整数;
主题确定单元,用于将所述文档集合作为主题模型算法LDA的输入,并根据预设的主题集合确定对应主题;
还包括:概率确定单元;
所述概率确定单元,用于将所述文档集合作为主题模型算法LDA的输入,以及根据预设的包含K个主题的主题集合,得到文档主题群概率和用户主题群概率,所述文档主题群概率表示所述文档集合中的每个文档对应所述主题集合中的每个主题的概率,所述用户主题群概率表示所述文档集合中的每个用户标识对应所述主题集合中的每个主题的概率,K为大于1的整数;
所述主题确定单元,用于根据所述概率确定单元确定的所述文档主题群概率,确定所述文档集合中的每个文档对应的主题,以及根据所述用户主题群概率,确定所述文档集合中每个用户标识对应的主题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网宿科技股份有限公司,未经网宿科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710146476.X/1.html,转载请声明来源钻瓜专利网。