[发明专利]微博信息追踪方法和微博信息追踪装置在审
申请号: | 201410211030.7 | 申请日: | 2014-05-19 |
公开(公告)号: | CN103984729A | 公开(公告)日: | 2014-08-13 |
发明(设计)人: | 洪毅虹;费跃;杨建武 | 申请(专利权)人: | 北京大学;北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京友联知识产权代理事务所(普通合伙) 11343 | 代理人: | 尚志峰;汪海屏 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 追踪 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,具体而言,涉及微博信息追踪方法和微博信息追踪装置。
背景技术
近年来,随着移动互联网在世界范围内的迅速普及和蓬勃发展,实时的互联网络在人们的日常生活中越来越普遍。作为一种新兴的社交网络媒体,微博客(简称微博),正逐渐取代博客,成为人们分享、传播和获取信息的新平台,典型的代表有美国注明微博客Twitter和国内的新浪微博。
微博客是一种广播形式的博客,用户可以随时随地用140个字符以内的内容发表自己的状态,分享自己感兴趣的新闻。其实时性、易用性以及社会化的特性使得微博在互联网上得到用户的青睐。据数据统计,美国著名微博客Twitter,其每日更新的微博数超过了5亿条。而在中国国内,据CNNIC《第32次中国互联网发展状况调查报告》显示,截至2013年6月底,中国微博用户数量达到3.31亿。作为一种互动性和传播性极强的社交网络,当一个事件发生的时候,微博会在极短的时间里产生海量的数据信息。在这种实时快速更新的宏大信息流中,用户想了解自己所感兴趣的事件的进展,希望系统能够对于话题的动态进行实时跟踪。而微博的实时性、社会化以及碎片化特征给微博环境下的话题追踪带来了巨大的挑战。
与传统新闻媒体以及博客环境下话题追踪一样,微博环境下与话题相关的微博追踪也面临着初始语料不足以及话题偏移的挑战。因此传统的话题追踪的技术,比如Rocchio算法、逻辑斯蒂回归算法都可以应用到微博环境下的话题追踪中。但是,与传统新闻媒体和博客环境下的话题追踪相比,微博环境下的话题追踪是不相同的。首先微博的内容更加短小精悍,更加碎片化,通常只允许用户发表140个字符以内的内容。相比传统新闻媒体和博客,我们更难准确地获取微博的主题信息。其次,用户在所编辑的微博内容中不仅可以包含文本的内容,而且可以包含图片及视频的链接或其他网页形式的链接来补充说明所要发表的内容。与此同时,用户还可以在微博中使用#符号来表明微博所属的主题,使得相似的信息能更快、更好地聚集在一起,从而方便信息的有效获取。除此之外,用户还可以通过符号、RT符号和其他用户进行互动,使得信息在用户之间能更快地传递。这些社交特性是传统新闻媒体和博客中不存在的。再次,相对于传统的博客,用户在微博中所发布的主题也更为宽泛和随意,可以是用户当前的状态,对特定话题的关注,甚至可以是简单的别人微博的转发。微博的用户人群也比传统的博客更加多元化,因此每一条微博并不是像博客那样有比较高的质量,其质量是参差不齐的。由于微博的特殊性,因此传统的话题追踪的技术不适用于微博环境。
因此,如何解决微博环境下与话题相关的微博追踪称为亟待解决的技术问题。
发明内容
基于上述背景技术出现的技术问题,本发明提供了一种信息追踪技术,可应用于微博环境中,提高追踪与话题相关的微博信息的准确率。
根据本发明的一个方面,提供了一种微博信息追踪方法,包括:预设训练集合,其中,所述训练集合包括至少一个话题、前景语料和背景语料,所述前景语料为在所述话题发生的时间戳之后发布的微博信息,所述背景语料为在所述话题发生的时间戳之前发布的微博信息;获取所述话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征,以得到有关于所述训练集合的特征集合;根据所述特征集合训练生成话题追踪模型;使用所述话题追踪模型对需进行追踪的微博信息进行追踪。
本发明典型的应用场景是微博环境,对预先设置的训练集合进行特征提取,得到特征集合,在该特征集合中,微博信息的文本特征反应了微博信息的语义信息和质量信息,而微博信息的相关反馈特征反应了与当前时间点最邻近且与话题相关的微博信息的相关性,因此基于该特征集合生成的话题追踪模型能够解决微博环境下话题偏移的问题,变相地进行了查询扩展,并且从海量的实时微博信息流中过滤出与话题相关的微博信息,可以提高微博环境下话题追踪的准确率,对网络用户有着重要的现实意义。
根据本发明的另一方面,还提供了一种微博信息追踪装置,包括:设置单元,预设训练集合,其中,所述训练集合包括至少一个话题、前景语料和背景语料,所述前景语料为在所述话题发生的时间戳之后发布的微博信息,所述背景语料为在所述话题发生的时间戳之前发布的微博信息;特征集合获取单元,获取所述话题的前景语料中每一条微博信息的文本特征、相关反馈特征和相关性特征,以得到有关于所述训练集合的特征集合;微博话题追踪模型生成单元,根据所述特征集合训练生成微博话题追踪模型;追踪单元,使用所述微博话题追踪模型对需进行追踪的微博信息进行追踪。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学;北大方正集团有限公司;北京北大方正电子有限公司,未经北京大学;北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410211030.7/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置