[发明专利]基于社会媒体平台上社会事件的跟踪方法在审
申请号: | 201611260200.6 | 申请日: | 2016-12-30 |
公开(公告)号: | CN106874365A | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 徐常胜;钱胜胜;张天柱 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q50/00 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙)11482 | 代理人: | 李飞,吴晓芬 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 社会 媒体 平台 事件 跟踪 方法 | ||
技术领域
本发明涉及数据挖掘与数据跟踪技术领域,具体而言,涉及一种基于社会媒体平台上社会事件的跟踪方法。
背景技术
随着互联网的快速发展,越来越多的社交网站(如Flickr,YouTube,脸谱网和谷歌新闻)出现在人们的视野,并且允许用户去分享想法、心情、图片、活动、事件以及寻找具有相同爱好的人。所以,现在发生在我们周围和世界周围的热门事件主题可以快速在各大媒体网站上传播,并且产生了大量的多模态媒体数据,其包括图片、视频、文本等。这些被用户传播在网站的多媒体数据内容大多和社会事件息息相关。然而在现实生活中,用户人工收集这些所有的资料并且认识事件的整个演变过程是非常耗时。社会事件跟踪可以在一定程度上解决整个问题,它的目的是为了从大量的媒体数据中自动识别以及跟踪有趣的社会事件演变。举例说明,用户往往可能想要从开始到结束跟踪整个“2011英国暴动”这个主题演变过程。当用户在谷歌新闻上搜索整个相关事件的媒体信息时,可能会得到大量的相关信息。然而,结果往往只是显示最近所发生的事情,而与它相关的事件信息可能过于分散,用户为了了解整个事件不得不不断地重复在这些信息之间进行切换。此外,对于用户来说,浏览如此大量的数据信息是非常耗时的,用户也无法捕捉到整个事件的演变。因此,为了得到一个科学的事件分析过程,我们有必要自动收集社会事件的整个发展趋势并且用可视化的方式展示出来。如果得到了这个科学的分析过程,我们就可以知道“2011英国暴动”这个事件整体在各个城市间的发展演变。总的来说,基于社会媒体平台的社会事件跟踪是非常重要的,从大量的社交媒体的数据中自动挖掘和跟踪社会事件,有助于用户和政府更好地理解社会事件和知道它的演变趋势。
当前,社会媒体平台包含了大量的非结构化的多模态媒体数据,它不同于传统的只有单一模态的数据,比如只有文本数据。在不同的社会媒体平台,社会事件具有丰富的多模态信息形式,比如文本、图片和视频等。这些多模态信息形式可以互相补充,能够更好地帮助用户理解事件。举例说明,对于相同的一个社会事件,由于不同的用户在媒体平台上表述的文本内容可能不同,但是其平台上的视觉信息可能是相同或者相似的。然而,目前的一些工作可能都是集中研究某一种形态比如文本或者图片。而人们需要综合考虑多模态数据进行社会事件的分析。第二,在社会事件的跟踪过程中,各个媒体网站可能具有相似的事件报道,比如“占领华尔街”,“美国总统选举”,它们都具有相似的主题,类似“美国,政府,总统”。但是,由于很多信息都是由用户产生的,所以有可能会存在一些噪音。举个例子,评论和相应的图片可能表述的事件没有关系。这些问题很可能导致在线的社会事件跟踪产生模型漂移。所以设计一种多模态融合策略和避免模型漂移问题的在线跟踪方法对于社会事件跟踪是非常有必要的。
为了实现以上目标,目前已经提出了很多方法。在最近的研究中,很多主题模型方法也同样被用于多模态主题的社会事件分析。然而,这些方法要么必须假设主题个数要么在传统的主题模型中,使用不同的数据集训练模型并且最后选择最好的数据集。这就意味着用户必须对数据集的结构做一个假设或者训练多种模型。
发明内容
为了解决现有技术中的上述问题,即为了解决如何改善社会事件跟踪效果的技术问题,提供一种基于社会媒体平台上社会事件的跟踪方法。
为了实现上述目的,提供以下技术方案:
一种基于社会媒体平台上社会事件的跟踪方法,该方法可以包括:
提取社会媒体平台上社会事件的文本和视觉信息特征;
基于提取的文本和视觉信息特征,利用基于事件的在线多模态跟踪方法,在线地建模多模态数据的社会事件,得到多模态的文本和视觉主题以及社会事件文档的特征表示;
利用多模态的文本和视觉主题以及社会事件文档的特征表示,并将基于事件的在线多模态跟踪方法集成到社会事件跟踪方法上,来进行社会事件跟踪。
优选地,提取社会媒体平台上社会事件的文本和视觉信息特征,具体可以包括:
针对社会媒体平台上社会事件的文本信息,使用向量空间模型,并利用文本的上下文信息,提取文本特征;
针对社会媒体平台上社会事件的视觉信息,结合图像的结构信息,利用稀疏学习和字典学习,并基于词袋模型,提取视觉信息特征;其中,视觉信息包括图像的结构信息。
优选地,基于提取的文本和视觉信息特征,利用基于事件的在线多模态跟踪方法,在线地建模多模态数据的社会事件,得到多模态的文本和视觉主题以及社会事件文档的特征表示,具体可以包括:
定义文档层的狄利克雷:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611260200.6/2.html,转载请声明来源钻瓜专利网。