[发明专利]基于新闻的事件演化关系自动提取方法及其系统有效
申请号: | 201510372236.2 | 申请日: | 2015-06-29 |
公开(公告)号: | CN104915446B | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 蔡毅;黄东平;闵华清 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F17/27 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 罗观祥 |
地址: | 510006 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 演化关系 事件提取 新闻事件 新闻信息 自动提取 分析 关键词提取模块 预处理 时间提取模块 自动提取系统 关键词提取 预处理模块 时间提取 提取模块 新闻话题 清晰 | ||
本发明公开了一种基于新闻的演化关系自动提取方法,包括:新闻信息预处理、新闻导语提取、新闻事件时间提取、事件提取、事件关键词提取、事件演化关系分析;本发明还公开了一种新闻的演化关系自动提取系统,包括:新闻信息预处理模块、新闻导语提取模块、新闻事件时间提取模块、事件提取模块、事件关键词提取模块、演化关系分析。本发明可以使得提取出来的事件演化关系图更加合理、事件之间的关系更加清晰;具有解决了目前新闻演化分析领域的部分不足之处,使演化分析达到更好的效果,方便用户了解整个新闻话题的发展脉络等优点。
技术领域
本发明涉及一种数据挖掘技术,特别涉及一种基于新闻的事件演化关系自动提取方法及其系统。
背景技术
随着互联网的出现,信息技术迅猛发展,人类社会进入了信息爆炸时代。每一天,都有大量的网民通过各种媒介平台接收各类数据信息。截止至2011年12月,中国的网民数量高达5.13亿人,居世界首位。网民的主要行为包括:聊天、阅读、游戏、下载、视频。其中,阅读占据了较大的比例。特别是随着手机、平板电脑等移动平台的盛行,在线阅读信息的网民也越来越多。在如此浩瀚的信息世界中,新闻信息占据很大的一部分。在中国,互联网是新闻信息最快速的发布平台,具有高实时性的特点。互联网已经成为主要的新闻传播平台,具有社会舆论的放大器的功能。通过各个门户网站,例如网易、新浪、百度,用户能够及时获取关于某一个话题的各种相关报道。
新闻演化是一个新闻话题从出现、发展、高潮、平淡、到最后结束的生命历程。一个复杂的新闻话题往往包含多个子事件,而事件之间也存在着一些关系。通过这些事件之间的关系,可以得到一个新闻话题的事件演化关系图。例如在话题“汶川大地震”中,事件“汶川发生8.0级地震”导致了事件“汶川地震导致480万人无家可归”。而事件“汶川地震中有大量学生伤亡”也与事件“学校的建筑质量被质疑”有密切关系。
阅读者往往不止对一个单独的新闻事件感兴趣,还对与此新闻事件有关的其他事件感兴趣。也就是说,阅读者对整个话题的演变过程感兴趣,希望能从头到尾了解事情演变的全貌。但由于互联网信息的爆炸性、异构性、分布性等特点,关于某一个话题的新闻可能非常多。而且各种新闻信息非常分散,一个新闻事件的相关信息往往分布在几篇新闻中。例如近年来网络上的热点新闻:汶川地震、北京奥运会、三鹿奶粉,乃至2014年的“马航失联”事件无不是一段时间关注度最高的新闻话题。每一天,都与数以千计的相关新闻在门户网站、微博、微信等平台上更新。面对如此铺天盖地的新闻报道,用户很难一一去阅读。但如果单独阅读某一部分新闻,用户又可能错过某些关键信息。阅读者,很难全面了解新闻的发展历程以及后续结果,因为每一则新闻可能只是描述一个话题中的某一个小事件。如何才能够快捷地了解新闻事件的演化过程,直观地掌握信息之间的复杂关系,把握事件内容的发展趋势,是目前研究的一个热点问题。各种信息检索、分类、监测和提取技术都是围绕这个目的展开的。新闻演化分析就是其中一个方向。在信息爆炸的时代背景下,对新闻话题动态演化及其关键技术进行研究,从而为用户提供更便捷、更清晰地从头到尾了解新闻的发展全貌的阅读方式。
人类认知心理学相关研究表明,人类认识事物的过程总是按照一定逻辑顺序展开。当用户开始关注某个新闻话题时,他总是希望能够了解新闻事件的起因或缘由,以及相关的背景,进而深入了解事情的发展、高潮,直到整个新闻话题的终结。因此,自动化的新闻演化分析显得非常有必要。本发明从新闻话题出发,利用计算机技术挖掘新闻话题底层事件之间的演化关系,构建事件演化关系图,从而全面直观展示新闻之间的迁移关系,为读者提供一种话题演变式的新闻浏览方式,读者可以更方便快捷地从头到尾了解新闻的发展全貌。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510372236.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网页埋点的方法及装置
- 下一篇:用于在通信系统中配置发送器均衡的技术