[发明专利]一种时间敏感和自适应的子话题在线检测方法及系统有效

专利信息
申请号: 201510408490.3 申请日: 2015-07-13
公开(公告)号: CN105488092B 公开(公告)日: 2018-05-22
发明(设计)人: 李思旭;李锐;包秀国;马宏远;杨文静;邱泳钦;程工;刘春阳;庞琳;王斌 申请(专利权)人: 中国科学院信息工程研究所;国家计算机网络与信息安全管理中心
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27;G06K9/62;G06Q50/00
代理公司: 北京君尚知识产权代理事务所(普通合伙) 11200 代理人: 冯艺东
地址: 100093 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 时间 敏感 自适应 话题 在线 检测 方法 系统
【说明书】:

发明涉及一种时间敏感和自适应的子话题在线检测方法及系统。该方法包括:1)对文档流中的每篇文档进行向量化表示;2)对文档进行增量式聚类,并根据随时间衰减的文档权重调整子话题的中心权重;3)当聚类产生的子话题数量或者某个子话题权重占比满足阈值条件,或者子话题满足长尾检测条件时,进行子话题间的合并或者删除无意义的子话题;4)根据每个新子话题的权重已及其内在的文档分布,对新子话题生成摘要并输出展示。该系统包括文档表示模块、增量式聚类模块、新子话题发现模块、摘要生成模块。本发明中历史文档权重随时间衰减,并且基于阈值判断和长尾检测进行子话题数量和内容的动态更新,能够有效提高子话题检测的效率。

技术领域

本发明属于信息技术领域,具体涉及一种时间敏感和自适应的子话题在线检测方法及系统,可以应用于突发事件检测、子话题分析、舆情分析、社交媒体数据挖掘等领域。

背景技术

微博是微型博客(Microblog)的简称。用户注册微博账号,就可以通过关注好友、名人、机构等方式,使得不同的用户建立起网络关系。微博的消息流中充斥着各方各面的事物,但不同的社会实体关注的内容却截然不同,例如产品公司关注相关产品在网络中实时的口碑,知名人物关注自身在网民中的舆论形象与影响。因此基于社交网络针对特定目标实体的在线子话题检测引起了公司、高校以及许多研究人员的高度关注。微博子话题检测可以为用户节省浏览微博的时间,了解微博平台上的热门话题,理清话题发展脉络,还可以让用户获得与重大事件有关的原始材料,因为这些材料的发布者通常都亲身经历了整个事件,具有较高的真实性。因此,对微博进行在线子话题检测与分析技术的研究具有重大意义。

子话题检测旨在将目标文档流归入不同的类,当新的文档不属于历史的任何一个类时建立一个新类,新类即代表新的子话题。目标文档流,可以是关于一个话题,一个事件或者一个实体的报道。从本质上说,子话题分析是一种无指导增量式聚类研究方法。系统无法预知有多少子话题,也并不知道什么时候建立新的子话题。子话题检测是对目标数据流起着监控,跟踪,分析的作用。目前国外针对Twitter做的相关研究比国内的研究多,国内关于微博的话题检测技术研究还处于起步阶段。而微博文本较短,表达偏口语化,将传统的方法直接应用到微博上往往会出现计算量过大,检测率低等问题,这就需要研究适合微博特点的热点新闻发现与跟踪方法。

目前,在话题检测方面比较有代表性的研究有:Yiming Yang采用凝聚式聚类算法与平均聚类算法相结合的策略(Yang Y.,Pierce T.,and Carbonell J.A Study onRetrospective and On-Line Event Detection[J].In Proceedings of the 21st ACMSIGIR.1998),将近似于同一话题模型的相关事件综合在一起作为话题检测的结果。在线首话题检测传统的方法是单次扫描聚类(Single-pass)方法,代表系统有CMU系统,速度较慢。张阔等人用索引树方法(Zhang,Kuo,Juan Zi,and Li Gang Wu,New event detectionbased on indexing-tree and named entity,SIGIR’07:Proceedings of the 30thannual international ACM SIGIR conference on Research and development ininformation retrieval,ACM,New York,NY,USA,pp.215–222.2007)提高速度和精度。SasaPetrovic等人用局部敏感哈希算法,在不损失精度的情况下,大幅度提高了速度(Petrovic,Miles Osborne,and Victor Lavrenko.Streaming first story detectionwith application to Twitter.HLT'10.2010.)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所;国家计算机网络与信息安全管理中心,未经中国科学院信息工程研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510408490.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top