[发明专利]互联网事件分析方法与装置无效
申请号: | 201310100110.0 | 申请日: | 2013-03-26 |
公开(公告)号: | CN103218410A | 公开(公告)日: | 2013-07-24 |
发明(设计)人: | 罗峰;黄苏支;李娜 | 申请(专利权)人: | 亿赞普(北京)科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 兰淑铎 |
地址: | 100081 北京市海淀区南大街东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网 事件 分析 方法 装置 | ||
技术领域
本发明涉及网络技术领域,特别是涉及一种互联网事件分析方法与装置。
背景技术
网络舆情是通过互联网传播的、公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过微博、BBS论坛、博客、新闻跟贴、转贴等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想。网络舆情是一股强大的舆论力量,会反作用于热点事件并对社会发展和事态进程产生一定的影响。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。
网络上的互联网事件是网络舆情体现的基本要素,对互联网事件的管理是实现网络舆情管理的重要的环节。目前,对互联网事件的管理主要是对互联网事件相关内容和数据的收集,而没有从互联网事件发生的行为的角度进行深度分析,即无法更深层次的分析、防止互联网事件发展,给出合理的应对措施,从而对互联网事件相关者造成损失或不良影响。
发明内容
本发明提供了一种互联网事件分析方法与装置,以解决现有技术不对互联网事件从发生的行为的角度进行分析,导致无法更深层次的分析、防止互联网事件发展,给出合理的应对措施的问题。
为了解决上述问题,本发明公开了一种互联网事件分析方法,包括:获取互联网用户的全网网络访问日志信息;对所述互联网用户的全网网络访问日志信息进行过滤,获取所述互联网用户中的正常用户访问的网站的统一资源定位符URL的信息;根据所述URL的信息,获取所述URL对应的网页正文,并对所述网页正文进行热点词提取;根据提取的所述热点词,从获取的所述网页正文中提取出至少一组互联网主题事件,其中,每组互联网主题事件包括同一主题的互联网事件在不同时间的变化事件;对所述每组互联网主题事件中的每个变化事件按时间排序,获得每个主题的互联网事件的行为活动信息。
优选地,所述获取互联网用户的全网网络访问日志信息的步骤包括:通过获取主干网流量的镜像数据,获取所述互联网用户的全网网络访问日志信息。
优选地,对所述互联网用户的全网网络访问日志信息进行过滤,获取所述互联网用户中的正常用户访问的网站的URL的信息的步骤包括:对所述互联网用户的全网网络访问日志信息进行过滤,去除非正常用户的全网网络访问日志信息,获得所述正常用户的全网网络访问日志信息,其中,所述非正常用户包括以下至少之一:爬虫用户、非正常域名用户、无法识别的用户;根据所述正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的URL的信息。
优选地,所述对所述网页正文进行热点词提取的步骤包括:对所述网页正文进行词组划分和提取操作;计算提取出的词组的词频,并判断所述词频是否满足设定阈值;提取出满足所述设定阈值的词组作为所述热点词。
优选地,所述根据提取的所述热点词,从获取的所述网页正文中提取出至少一组互联网主题事件的步骤包括:根据预设的关键词和提取的所述热点词,从获取的所述网页正文中提取出至少一组互联网主题事件。
为了解决上述问题,本发明还公开了一种互联网事件分析装置,包括:第一获取模块,用于获取互联网用户的全网网络访问日志信息;第二获取模块,用于对所述互联网用户的全网网络访问日志信息进行过滤,获取所述互联网用户中的正常用户访问的网站的统一资源定位符URL的信息;第一提取模块,用于根据所述URL的信息,获取所述URL对应的网页正文,并对所述网页正文进行热点词提取;第二提取模块,用于根据提取的所述热点词,从获取的所述网页正文中提取出至少一组互联网主题事件,其中,每组互联网主题事件包括同一主题的互联网事件在不同时间的变化事件;第三获取模块,用于对所述每组互联网主题事件中的每个变化事件按时间排序,获得每个主题的互联网事件的行为活动信息。
优选地,所述第一获取模块,用于通过获取主干网流量的镜像数据,获取所述互联网用户的全网网络访问日志信息。
优选地,所述第二获取模块,用于对所述互联网用户的全网网络访问日志信息进行过滤,去除非正常用户的全网网络访问日志信息,获得所述正常用户的全网网络访问日志信息,其中,所述非正常用户包括以下至少之一:爬虫用户、非正常域名用户、无法识别的用户;根据所述正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的URL的信息。
优选地,所述第一提取模块在对所述网页正文进行热点词提取时,对所述网页正文进行词组划分和提取操作;计算提取出的词组的词频,并判断所述词频是否满足设定阈值;提取出满足所述设定阈值的词组作为所述热点词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿赞普(北京)科技有限公司,未经亿赞普(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310100110.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:核磁共振成像系统及其方法
- 下一篇:安全门