[发明专利]一种互联网舆情话题的动态识别和追踪方法有效
申请号: | 201410574419.8 | 申请日: | 2014-10-24 |
公开(公告)号: | CN104298765B | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 陈海汉 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种互联网舆情话题的动态识别和追踪方法,包括以下步骤1、将舆情话题抽象为节点,节点之间以连接弧表示舆情话题之间存在关联,连接弧的权值表示舆情话题的相关度;2、按照舆情话题发布的时间将其划归到相应的时间片中,构建由话题信息层、网页信息层和网民信息层组成的互联网舆情话题动态演化模型;3、对与舆情话题相关的新入网页进行特征抽取,获得特征项,将网页转化为特征项形成的多元向量空间,计算其与原舆情话题之间的话题相关度;4、采用增量式聚类,依次处理所述新入网页,识别新话题,并将追踪到的舆情新话题扩充更新到模型中。该方法有利于克服话题演化中的话题漂移和衍生问题,提高网络舆情话题追踪效果。 | ||
搜索关键词: | 一种 互联网 舆情 话题 动态 识别 追踪 方法 | ||
【主权项】:
一种互联网舆情话题的动态识别和追踪方法,其特征在于,包括以下步骤:步骤1:将舆情话题抽象为节点,节点之间以连接弧表示舆情话题之间存在关联,连接弧的权值表示舆情话题的相关度;步骤2:将时间轴划分为一定长度的时间片,按照舆情话题发布的时间将其划归到相应的时间片中,构建由话题信息层、网页信息层和网民信息层组成的互联网舆情话题动态演化模型;步骤3:对与舆情话题相关的新入网页进行特征抽取,获得特征项,用权重高于平均值的特征项对网页进行描述,将网页转化为特征项形成的多元向量空间,计算其与原舆情话题之间的话题相关度;步骤4:采用增量式聚类识别新话题,依次处理所述新入网页,识别新话题,即如果话题相关度R大于设定阈值θ,则认为是对已有话题的重复报道,舍弃该话题,反之则认为网页中出现了新话题,并将追踪到的舆情新话题扩充更新到互联网舆情话题动态演化模型中;在步骤2中,话题信息层是对应不同时序信息的话题组成的体系结构,表示为:T=(t1|e11,...e1j,...e1h),e1j∈E1...(ti|ei1,...eij,...ein),eij∈Ei...(tm|em1,...emj,...emn),emj∈Em]]>其中,T为一突发事件,ti为对应的时间片,eij为在时间片ti内产生的与突发事件相关的一舆情话题,以向量的形式进行描述,Ei为时间片ti内产生的舆情话题集合;网页信息层是对应不同时序信息的网页集合P={P1,P2,…,PT}及网页间的链接关系集合PR={PR1,PR2,…,PRT},Pi为时间片ti内产生的网页集合,PRt为前t个时间片内的网页集合,且网页pi通过链接指向网页pj;网民信息层是网络用户的信息及其关系的集合UG={UG1,UG2,…,UGT},UGi为第i个时间片内的话题讨论者的关系集合,包括网民的特征;在步骤3中,涉及话题相关度的计算如下:基于网页间链接关系和内容相似度,计算网页间话题相关度,如式(1)所示:R=RL⊕RC---(1)]]>其中,RC是根据网页的内容计算得到的相关度;RL是根据网页间的链接关系,在区分链接性质的前提下计算出的网页主题之间的相关度;表示对RL和RC之间的运算是广义加法运算即网页间的话题相关度R满足max(RL,RC)≤R≤min(1,RL+δRC),δ是根据RL和RC的相对重要性设置的调节系数;新入网页Pa与原舆情话题的话题相关度RL(Pa)的具体计算方法,如式(2)所示:RL(Pa)=(RC(P1)+RC(P2)+...+RC(Pn))/N(a) (2)其中,RC(Pi)为新入网页Pa与原有网页Pi的内容相似度,N(a)是新入网页Pa发出的链接总数;按如下方法更新话题模型:定义RnewC(S,K)为互联网舆情报道语料S和舆情话题K的内容相似度,表示新舆情报道的内容相似度的调整,如式(3)所示:Rnewc(S,K)=Σr(etS,etK)N---(3)]]>其中,表示对t时刻的舆情报道进行特征抽取后形成的向量空间;表示t时刻已存在的时刻话题;N是互联网舆情报道语料S持续的时间长度,表示互联网舆情报道语料S中涉及的话题与其所在时间片内已存在的话题的相似度之和;对于RL,主要根据新入舆情报道的网页与原网页之间的链接指向关系进行调整;如果新入舆情报道的网页Pa有指向原话题K的链接,根据式(4)调整RL;RL(Pa)=RL(Pa)+Rc(Pa)N(Pa)---(4)]]>Rc(Pa)为通过公式(3)计算出的内容相似度;计算出新的舆情报道的RL、Rc后调整话题相关度R。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410574419.8/,转载请声明来源钻瓜专利网。
- 上一篇:生产装置
- 下一篇:一种可收缩展开的儿童摇床