[发明专利]互联网事件分析方法与装置有效
申请号: | 201310084577.0 | 申请日: | 2013-03-15 |
公开(公告)号: | CN103188347A | 公开(公告)日: | 2013-07-03 |
发明(设计)人: | 罗峰;黄苏支;李娜 | 申请(专利权)人: | 亿赞普(北京)科技有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 兰淑铎 |
地址: | 100081 北京市海淀区南大街东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网 事件 分析 方法 装置 | ||
1.一种互联网事件分析方法,其特征在于,包括:
根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的统一资源定位符URL的信息和所述正常用户的用户标识信息;
根据所述URL的信息,获取所述URL对应的网页正文,并对所述网页正文进行热点词提取;
根据提取的所述热点词,从获取的所述网页正文中提取出互联网事件;
获取访问所述互联网事件的所述正常用户的用户标识信息;
根据所述用户标识信息和设置的人群分组样本库,分别确定所述正常用户所在的人群分组,获取各个所述人群分组的属性信息,其中,所述人群分组样本库包括多个人群分组的信息,每个人群分组包括的用户标识信息,和每个人群分组的属性信息;
根据获取的所述各个人群分组的属性信息,确定所述互联网事件的事件人群信息。
2.根据权利要求1所述的方法,其特征在于,所述根据提取的所述热点词,从获取的所述网页正文中提取出互联网事件的步骤包括:
根据提取的所述热点词,从获取的所述网页正文中提取出至少一组相同主题的互联网事件的变化事件;
将每组所述变化事件作为与本组主题相对应的单个互联网事件。
3.根据权利要求2所述的方法,其特征在于,所述获取访问所述互联网事件的所述正常用户的用户标识信息的步骤包括:
根据所述互联网事件对应的所有变化事件,确定各个所述变化事件对应的URL;
根据过滤后的所述全网网络访问日志信息,确定访问所述各个变化事件对应的URL的正常用户的用户标识信息。
4.根据权利要求1所述的方法,其特征在于,在所述根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的URL的信息和所述正常用户的用户标识信息的步骤之前,还包括:
获取用户的全网网络访问日志信息;
对所述用户的全网网络访问日志信息进行过滤,去除非正常用户的全网网络访问日志信息,获得所述正常用户的全网网络访问日志信息,其中,所述非正常用户包括以下至少之一:爬虫用户、非正常域名用户、无法识别的用户。
5.根据权利要求1所述的方法,其特征在于,所述对所述网页正文进行热点词提取的步骤包括:
对所述网页正文进行词组划分和提取操作;
计算提取出的词组的词频,并判断所述词频是否满足设定阈值;
提取出满足所述设定阈值的词组作为所述热点词。
6.一种互联网事件分析装置,其特征在于,包括:
第一获取模块,用于根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的统一资源定位符URL的信息和所述正常用户的用户标识信息;
第一提取模块,用于根据所述URL的信息,获取所述URL对应的网页正文,并对所述网页正文进行热点词提取;
第二提取模块,用于根据提取的所述热点词,从获取的所述网页正文中提取出互联网事件;
第二获取模块,用于获取访问所述互联网事件的所述正常用户的用户标识信息;
第三获取模块,用于根据所述用户标识信息和设置的人群分组样本库,分别确定所述正常用户所在的人群分组,获取各个所述人群分组的属性信息,其中,所述人群分组样本库包括多个人群分组的信息,每个人群分组包括的用户标识信息,和每个人群分组的属性信息;
确定模块,用于根据获取的所述各个人群分组的属性信息,确定所述互联网事件的事件人群信息。
7.根据权利要求6所述的装置,其特征在于,所述第二提取模块,用于根据提取的所述热点词,从获取的所述网页正文中提取出至少一组相同主题的互联网事件的变化事件;将每组所述变化事件作为与本组主题相对应的单个互联网事件。
8.根据权利要求7所述的装置,其特征在于,所述第三获取模块,用于根据所述互联网事件对应的所有变化事件,确定各个所述变化事件对应的URL;根据过滤后的所述全网网络访问日志信息,确定访问所述各个变化事件对应的URL的正常用户的用户标识信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿赞普(北京)科技有限公司,未经亿赞普(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310084577.0/1.html,转载请声明来源钻瓜专利网。