[发明专利]基于微博的事件特征演化挖掘方法及系统有效
申请号: | 201310532377.7 | 申请日: | 2013-10-31 |
公开(公告)号: | CN103631862B | 公开(公告)日: | 2017-01-11 |
发明(设计)人: | 邓镭;贾焰;邹鹏;杨树强;周斌;韩伟红;李爱平;韩毅;李莎莎 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京泛华伟业知识产权代理有限公司11280 | 代理人: | 王勇 |
地址: | 410073 湖南省长沙*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 事件 特征 演化 挖掘 方法 系统 | ||
技术领域
本发明涉及文本挖掘和话题发现与跟踪领域,特别涉及一种基于微博文本数据的事件特征演化与挖掘的方法。
背景技术
随着Web2.0技术和应用近年来的蓬勃发展,在线微博服务逐渐成为了一种拥有大量用户、产生大量信息的新的信息传播平台。据第29次中国互联网报告统计:截至2011年12月底,我国微博的实际用户数达到2.5亿,较上一年底增长了296.0%,网民使用率为48.7%。
区别于Facebook等强关系社交网络服务,微博服务的社会网络关系通常是单向的——即用户不需要其他用户授权就可以关注他们,接收他们产生的信息。用户关注的人称为该用户的好友(friends);关注某用户的人称为该用户的粉丝(followers),用户发布的所有博文(tweets)将出现在公共时间线上(public timeline),该用户所有粉丝(followers)时间线上将显示该用户的所有消息。
现实中的话题或事件投影在微博的文本空间中,就是所有用户讨论相关话题、事件的博文的集合。(在文本分析领域,有时对话题和事件这两个概念不予区分,下文中均采用此观点。)现实中的话题和事件在不断演化,相应地,微博文本空间中的话题和事件也在不断演化。话题/事件演化的时刻即当微博中的粉丝对其关注者所发出的信息进行转发或评论的时刻。转发和评论中除了对原博文中的观点、叙述进行显示或隐式的重复外,还会引入新的观点和新的叙述,此时话题就会发生一定程度变化。从原博文后第一次被转发或评论起,话题的演化过程就开始了。随着转发、评论的不断进行,话题的外延也在不断延伸,话题不断演化。研究话题/事件在传播过程中的演化,就是要跟踪话题/事件信息在每一次传播中的细微变化,进而综合考察话题/事件在宏观上的变化。
目前对微博上话题/事件信息传播和演化的研究分为以下两类。第一类研究通过分析话题/事件传播的行为要素,建立话题传播和演化的数学模型,模拟传播演化过程,以回答话题/事件为什么会传播的问题。这类研究偏向于传播学层面的仿真建模理论,对研究某一特定话题/事件的传播演化过程并无实际意义。第二类研究将微博中的社会网络信息与传统的话题/事件模型相结合,对话题/事件在微博中的传播过程进行推理,此类研究最终会得到两种结果,其一是话题/事件在微博中的显式和隐式的传播路径,其二是话题/事件在传播过程中模型所发生的变化。此类研究的基本步骤是:
1、将微博中讨论同一话题/事件的文本按照时序排列,保持其显式转发关系,按照时间由前到后的顺序,和转发顺序进行处理,必要时引入时间片的概念,对同一时间片的文本同时进行处理。对没有引入时间片概念的,可以视为每篇文档单独占据一个时间片;
2、建立每个时间片的话题/事件模型,此时多考虑使用向量空间模型和概率模型,必要时将此时间片的话题模型进行拆分,分解为若干个子话题,以表示话题的不同方面。
3、以0时刻的话题/事件模型为基准,依次对后续时间片中的每一个文本的话题/事件模型进行考察,比较后者与前者的相似性,推理其传播关系。鉴于微博中信息流走向的局部性,此步骤中需将产生两个文本的用户间的关系考虑进来,若两用户之间没有明显的联系,则认为文本间有传播关系的概率小。
4、由步骤3,每个文档可视为一个顶点,文档间的传播关系可视为顶点间的边,因此此时可以构造造出文本信息的传播树或传播图。此图中刻画了话题/事件信息在微博中的显式/隐式传播路径。沿每条路径考察各顶点的话题/事件模型,该模型的变化规律即为沿此路径的话题/事件的演化规律。
从上述描述中可以看出,由于考察话题/事件的演化过程是在建立传播模型的同时完成的,所以话题/事件的演化过程并没有独立的模型,而是依赖于如向量空间或概率模型等话题模型。这些话题模型是文档集合的有效表达方式,却缺乏话题演化方面的表达,这导致上述方法得到的话题/事件演化分析结果不外乎词频或词汇向量随时间的变化规律,并没有词汇之间的关联信息,在话题/事件的领域知识方面没有继承性,在演化方面缺乏可解释性。介于此,需要一种新的话题/事件特征演化挖掘方法。
发明内容
本发明的目的在于克服上述现有技术的缺陷,提供一种新的基于微博的事件特征演化挖掘方法及系统。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种基于微博的事件特征演化挖掘方法,包括:
步骤1,从与待分析事件相关的微博文本的集合中选取若干个代表事件起点的微博,以构成事件演化起点微博集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310532377.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铸件细长盲孔风干机
- 下一篇:帮助下肢瘫痪者站起的充气围裙