[发明专利]一种互联网舆情话题的动态识别和追踪方法有效
申请号: | 201410574419.8 | 申请日: | 2014-10-24 |
公开(公告)号: | CN104298765B | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 陈海汉 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互联网 舆情 话题 动态 识别 追踪 方法 | ||
技术领域
本发明涉及互联网舆情技术领域,特别涉及一种互联网舆情话题的动态识别和追踪方法。
背景技术
网络舆情是互联网上公众对某事件的认知、态度、情感和行为倾向的集合。话题衍生性是网络舆情传播演化的一个主要特点,特别是在舆情衰退期,由于网民的注意力转移,对原始舆情话题的相关元素已失去兴趣、诉求和需要,原始舆情话题失去生命力,被新的衍生话题所替代,这将产生舆情对社会的“二次影响”。衍生话题与原始话题相互交织进而形成动态的衍生网络,而这会延长原始事件的生命周期,其持续期和消退期的持续事件均延长,加大了突发事件的应急处理难度,有时衍生话题的社会影响远大于原事件,给社会环境带来极大的损失。所以对舆情话题进行追踪具有十分重要的意义,其有助于了解事件的发展态势,避免事件的无限衍生蔓延,为突发事件应急管理提供重要的决策支持。
话题识别和追踪方法的研究主要分为三类:一是基于关键词匹配而未考虑话题语义相关性的问题,为兼顾文本的语义信息,引入隐含语义分析的方法对语料信息进行建模,通过两阶段的聚类策略发现网络上较受关注的话题;二是把时间离散化为时间点,然后利用其极限情况来处理连续时间的动态主题跟踪问题;三是采用LDA模型对网络热点话题主题进行提取,利用时间标签发现热点话题。由于互联网舆情所具有的衍生性和动态性,使得舆情呈现出复杂的演化特性,而以往学者构建的话题模型多着眼于对话题的结构化文本数据的描述,不能描述出话题的动态性变化。事实上舆情话题除了结构化的文本信息,还包括网页链接信息、话题的发布者(即用户)之间的关联信息等多元信息,且话题之间的时序特性是描述话题演变关系的重要依据。由于以往话题识别和追踪方法对话题演化的动态过程和微观结构方面缺乏有效的描述,使其不足以揭示出舆情话题的演化机理,同时存在舆情发展后期不可忽视的话题漂移和衍生问题,因此以往的互联网舆情话题识别和追踪方法难以满足实际应用需求。
发明内容
本发明的目的在于提供一种互联网舆情话题的动态识别和追踪方法,该方法有利于克服话题演化中的话题漂移和衍生问题,提高网络舆情话题追踪效果。
为实现上述目的,本发明的技术方案是:一种互联网舆情话题的动态识别和追踪方法,包括以下步骤:
步骤1:将舆情话题抽象为节点,节点之间以连接弧表示舆情话题之间存在关联,连接弧的权值表示舆情话题的相关度;
步骤2:将时间轴划分为一定长度的时间片,按照舆情话题发布的时间将其划归到相应的时间片中,构建由话题信息层、网页信息层和网民信息层组成的互联网舆情话题动态演化模型;
步骤3:对与舆情话题相关的新入网页进行特征抽取,获得特征项,用权重高于平均值的特征项对网页进行描述,将网页转化为特征项形成的多元向量空间,计算其与原舆情话题之间的话题相关度;
步骤4:采用增量式聚类识别新话题,依次处理所述新入网页,识别新话题,即如果话题相关度R大于设定阈值θ,则认为是对已有话题的重复报道,舍弃该话题,反之则认为网页中出现了新话题,并将追踪到的舆情新话题扩充更新到互联网舆情话题动态演化模型中。
进一步的,在步骤1中,话题信息层是对应不同时序信息的话题组成的体系结构,表示为:
其中,T为一突发事件,ti为对应的时间片,eij为在时间片ti内产生的与突发事件相关的一舆情话题,以向量的形式进行描述,Ei为时间片ti内产生的舆情话题集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410574419.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:生产装置
- 下一篇:一种可收缩展开的儿童摇床