[发明专利]互联网事件分析方法与装置无效

专利信息
申请号: 201310100110.0 申请日: 2013-03-26
公开(公告)号: CN103218410A 公开(公告)日: 2013-07-24
发明(设计)人: 罗峰;黄苏支;李娜 申请(专利权)人: 亿赞普(北京)科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 兰淑铎
地址: 100081 北京市海淀区南大街东北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 互联网 事件 分析 方法 装置
【说明书】:

技术领域

发明涉及网络技术领域,特别是涉及一种互联网事件分析方法与装置。

背景技术

网络舆情是通过互联网传播的、公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过微博、BBS论坛、博客、新闻跟贴、转贴等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想。网络舆情是一股强大的舆论力量,会反作用于热点事件并对社会发展和事态进程产生一定的影响。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。

网络上的互联网事件是网络舆情体现的基本要素,对互联网事件的管理是实现网络舆情管理的重要的环节。目前,对互联网事件的管理主要是对互联网事件相关内容和数据的收集,而没有从互联网事件发生的行为的角度进行深度分析,即无法更深层次的分析、防止互联网事件发展,给出合理的应对措施,从而对互联网事件相关者造成损失或不良影响。

发明内容

本发明提供了一种互联网事件分析方法与装置,以解决现有技术不对互联网事件从发生的行为的角度进行分析,导致无法更深层次的分析、防止互联网事件发展,给出合理的应对措施的问题。

为了解决上述问题,本发明公开了一种互联网事件分析方法,包括:获取互联网用户的全网网络访问日志信息;对所述互联网用户的全网网络访问日志信息进行过滤,获取所述互联网用户中的正常用户访问的网站的统一资源定位符URL的信息;根据所述URL的信息,获取所述URL对应的网页正文,并对所述网页正文进行热点词提取;根据提取的所述热点词,从获取的所述网页正文中提取出至少一组互联网主题事件,其中,每组互联网主题事件包括同一主题的互联网事件在不同时间的变化事件;对所述每组互联网主题事件中的每个变化事件按时间排序,获得每个主题的互联网事件的行为活动信息。

优选地,所述获取互联网用户的全网网络访问日志信息的步骤包括:通过获取主干网流量的镜像数据,获取所述互联网用户的全网网络访问日志信息。

优选地,对所述互联网用户的全网网络访问日志信息进行过滤,获取所述互联网用户中的正常用户访问的网站的URL的信息的步骤包括:对所述互联网用户的全网网络访问日志信息进行过滤,去除非正常用户的全网网络访问日志信息,获得所述正常用户的全网网络访问日志信息,其中,所述非正常用户包括以下至少之一:爬虫用户、非正常域名用户、无法识别的用户;根据所述正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的URL的信息。

优选地,所述对所述网页正文进行热点词提取的步骤包括:对所述网页正文进行词组划分和提取操作;计算提取出的词组的词频,并判断所述词频是否满足设定阈值;提取出满足所述设定阈值的词组作为所述热点词。

优选地,所述根据提取的所述热点词,从获取的所述网页正文中提取出至少一组互联网主题事件的步骤包括:根据预设的关键词和提取的所述热点词,从获取的所述网页正文中提取出至少一组互联网主题事件。

为了解决上述问题,本发明还公开了一种互联网事件分析装置,包括:第一获取模块,用于获取互联网用户的全网网络访问日志信息;第二获取模块,用于对所述互联网用户的全网网络访问日志信息进行过滤,获取所述互联网用户中的正常用户访问的网站的统一资源定位符URL的信息;第一提取模块,用于根据所述URL的信息,获取所述URL对应的网页正文,并对所述网页正文进行热点词提取;第二提取模块,用于根据提取的所述热点词,从获取的所述网页正文中提取出至少一组互联网主题事件,其中,每组互联网主题事件包括同一主题的互联网事件在不同时间的变化事件;第三获取模块,用于对所述每组互联网主题事件中的每个变化事件按时间排序,获得每个主题的互联网事件的行为活动信息。

优选地,所述第一获取模块,用于通过获取主干网流量的镜像数据,获取所述互联网用户的全网网络访问日志信息。

优选地,所述第二获取模块,用于对所述互联网用户的全网网络访问日志信息进行过滤,去除非正常用户的全网网络访问日志信息,获得所述正常用户的全网网络访问日志信息,其中,所述非正常用户包括以下至少之一:爬虫用户、非正常域名用户、无法识别的用户;根据所述正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的URL的信息。

优选地,所述第一提取模块在对所述网页正文进行热点词提取时,对所述网页正文进行词组划分和提取操作;计算提取出的词组的词频,并判断所述词频是否满足设定阈值;提取出满足所述设定阈值的词组作为所述热点词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿赞普(北京)科技有限公司,未经亿赞普(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310100110.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top