[发明专利]一种基于突破点的新闻话题时间线摘要生成方法无效
申请号: | 201210037970.X | 申请日: | 2012-02-17 |
公开(公告)号: | CN102646114A | 公开(公告)日: | 2012-08-22 |
发明(设计)人: | 黄民烈;朱小燕 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中北知识产权代理有限公司 11253 | 代理人: | 冯梦洪 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 突破点 新闻 话题 时间 摘要 生成 方法 | ||
技术领域
本发明涉及计算机应用技术的技术领域,具体地涉及一种基于突破点的新闻话题时间线摘要生成方法。
背景技术
在当今信息爆炸时代,人们可以从互联网上免费阅读、下载关于一个新闻话题的各类新闻报道。由于网络上关于一个新闻话题(尤其是热点新闻话题)的相关新闻文章数量非常多,导致读者很难从众多相关的新闻报道中高效、省时地了解目标新闻话题的发展趋势和演变过程。
新闻话题时间线摘要生成问题的难点包括如何从一个新闻话题相关的新闻报道中确定该话题发展过程中的重要时间点(即突破点),以及如何根据一个突破点的相关新闻生成时间线摘要。下面分别说明现有技术中的方法:
a)突破点挖掘的相关工作
目前已知的方法包括四种,分别如下:
1.基于新闻数量
该方法首先统计每个时间点上目标话题的相关新闻数量,然后将新闻话题数量最多的若干时间点作为该话题发展过程中的突破点。使用该方法获得一个话题的所有突破点中,有很多突破点并非该话题的重要时间点。由于新闻报道具有“突发性-多样性”的特点,因此新闻报道多的时间点并不一定就是该话题的重要时间点。
2.基于事件监测
该方法首先从各时间点上的新闻文章中依次检测出一系列与目标话题相关的新闻事件,然后将每个新闻事件发生的时间点作为目标话题的突破点。
由于一个新闻话题的大部分相关事件都不是该话题发展、演变过程中的重大事件,因此使用该方法获得一个话题的所有突破点中,有很多突破点并非该话题的重要时间点。
3.基于情感倾向波动
该方法首先从每个时间点上的相关文章中抽取出人们在本时间点对目标话题的情感倾向及强度,然后通过分析人们在各时间点上对目标话题的情感倾向及强度波动的情况,挖掘出目标话题的突破点。
该方法由于依赖人们对目标话题的情感变化趋势,因此不适用于分析新闻报道这种主要描述事实、主观性很弱的文章体裁。
4.基于文档相关度
该方法由Google公司开发,并曾经被用于Google News Time line(谷歌新闻时间线)网络服务。由于该方法的实现细节从未公开,且Google News Timeb line服务已经于2011年7月份被Google公司永久性关闭,因此可以认为该算法已经不再使用。
b)突破点摘要生成的相关工作
目前已知的方法包括三种,分别如下:
1.基于神经网络
该方法将摘要生成过程用一个自组织神经网络建模,将所有摘要候选句作为神经网络的输入,通过不断迭代计算神经网络的边权重,最终输出本突破点摘要的句子子集。
2.基于图结构
该方法首先将突破点当天发表的新闻文章中的所有句子置于一张无向有权图中,结点表示句子,边表示两个句子间的相似度,边的权重为相似度大小。然后通过随机游走方式从图中选出信息量最大、冗余度最小的句子集合作为该突破点的摘要。
3.基于优化算法
该方法将摘要生成过程建模为一个线性优化问题,其中每个变量代表一个摘要候选句,优化受限条件为句子冗余限制,优化目标为摘要所包含的最大信息量。通过迭代优化的方式计算出优化目标收敛时突破点摘要所包含的句子集合。
上述三种方法在生成突破点摘要时均未考虑突破点当天发生的相关重大事件,而是仅仅考虑选出那些信息量大且冗余度小的句子,因此无法保证生成的摘要与突破点本身密切相关。
综合以上所列相关工作,基于突破点的新闻话题时间线摘要生成方法的一般流程如图1所示。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种自动、高效率地挖掘出目标新闻话题发展过程中的重要时刻及所发生的重大事件、从而极大地帮助了读者了解一个新闻话题的演变过程的基于突破点的新闻话题时间线摘要生成方法。
本发明的技术方案是:这种基于突破点的新闻话题时间线摘要生成方法,包括以下步骤:
(1)将用户输入的话题关键词作为检索词,利用爬虫从相关新闻网站上下载用检索词搜索得到的所有新闻文章,然后对这些新闻文章进行预处理,预处理包括:字母小写化,去除停用词、数字和标点符号,由此构建了目标话题的新闻语料库;
(2)对目标话题在各个时间片段上的活跃度变化趋势建立话题活跃度隐马尔科夫模型,并删除目标话题不活跃的时间片段;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210037970.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:潜器全方位推进器单通道电液位置伺服控制方法
- 下一篇:一种散装酒容器