[发明专利]一种舆情热点动态检测方法无效
申请号: | 201310069181.9 | 申请日: | 2013-03-05 |
公开(公告)号: | CN103116651A | 公开(公告)日: | 2013-05-22 |
发明(设计)人: | 李千目;刘婷;侯君;戚湧 | 申请(专利权)人: | 南京理工大学常熟研究院有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 215513 江苏省苏州市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 舆情 热点 动态 检测 方法 | ||
技术领域
本发明涉及一种舆情热点动态检测方法,属于网络信息处理技术领域。
背景技术
网络舆情,是指在互联网上,围绕某些中介性社会事件的发生、发展和变化,网民对社会管理者产生和持有的社会政治态度,是网民关于社会中各种现象、问题所表达的信念、态度、意见和情绪等表现的总和。由于网络媒体的参与门槛低,使得网民的社会阶层分布广泛,反映出当前社会各个阶层民众的思想动态。
网络媒体能够反映社会民意的社会舆情,但同时一些不负责任的虚假信息、极端言论以及失实的政治舆论也在传播,我国当前处于一个矛盾高发的时代,所面临的网络舆情检测与分析形势严峻,能够正确有效地把握危机事件,有利于维护社会的稳定、和谐发展,因此,在面对论坛、博客、微博等网络媒体中海量数据的时候,如何及时、准确地从互联网中检测到热点的舆情信息,快速准确地制止危及国家和社会稳定的不稳定因素以及引导正面舆论,促进和谐社会建设,保障经济持续稳定发展具有重大的意义。
舆情热点检测技术是指从不断涌现的网络舆情中即时地获得新发生的热点信息,并对其进行持续追踪,主要依靠主题检测与追踪技术来实现。其中,文本聚类技术是主题检测技术的基础,包括单遍聚类、k-means聚类、层次凝聚聚类、概率模型。
现有的主题检测技术的主要步骤为:(1)从数据源读入一篇报道,数据源可以是多个,包括内容、时间等其它信息;(2)采用质心比较策略或最近邻居比较策略,确定与当前报道最接近的主题;(3)判断报道与现有主题的相似度,若报道能归入某个主题,则调整该主题,若报道无法归入现有主题,则列为新主题;(4)输出检测到的主题,将主题中的特征词作为主题描述。
由于现有主题检测技术主要考虑在固定的小数据集合上的错检率和漏检率,在实舆情热点自动检测时,主要存在的问题:(1)主题排序问题,现有技术仅仅按照主题本身包含的文档个数来排序,使得当前排序最前的主题是一些发生时间较长,相对陈旧的主题;(2)主题相似性问题,由于同一个主题在发生初期会进行不同方面的报道而被分为多个小主题,随着事态的发展,主题的相似度可能会越来越大,这就给用户的浏览带来迷惑;(3)淘汰过时报道问题,主题检测是长期持续的过程,而主题的动态演化使得主题内的一些报道和该主题的相关性会逐渐降低,或随着事态发展,整个主题内容可能过于宽泛,现有技术中没有考虑到过时报道淘汰问题;(4)主题描述问题,目前主题的描述包括提取主题若干个特征词和提取该主题中某个报道的标题两种方法,但是中文的自然语言处理技术仍然不够成熟,特征词并不一定可以表达该主题的意义,而如果采用该主题中某个报道的标题来描述,则可能会片面。
发明内容
本发明的目的在于通过改进现有的主题检测算法,并将其用于解决舆情热点检测存在的问题而提供一种舆情热点动态监测方法。
本发明通过如下技术方案实现,具体包括如下步骤:
步骤1,检测一个或多个新闻网络数据源,从数据源中抓取报道,解析出报道的时间、标题和正文信息;
所述的新闻网络数据源,当新报道和已经处理报道的重复度大于重复阈值θd时,则认为是重复报道,根据新报道的内容进行消重处理,其中0<θd≤1;
所述的消重处理步骤为:采用文本挖掘中的相似度计算方法进行,并在报道预处理中,对报道按照网络数据来源规则和基于内容的自动分类相结合的方法进行分类。
步骤2,采用质心比较策略,将当前报道与所属类别内现有监测到的主题进行比较,同时考虑时间和内容特征,计算当前报道和现有监测到的主题间的相似度,并记录最大相似度Smax以及相似度最大的主题Es;
所述的主题Es通过主题内部所有新闻中综合权重最高的若干个特征词来表达;所述的当前报道和主题Es之间的相似度基于向量空间模型,通过两者的夹角余弦值来计算;
其中,在计算当前报道和现有监测到的主题间的相似度S时,给予权威性较高的报道以较高权重,报道的权威性采用数据源的权威性。
步骤3,根据步骤2中计算得到的最大相似度Smax以及相似度最大的主题Es,对当前报道采取如下措施:
a) 如果Smax小于创新阈值θn,则在该报道所述类别内创建一个新主题;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学常熟研究院有限公司,未经南京理工大学常熟研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310069181.9/2.html,转载请声明来源钻瓜专利网。