[发明专利]一种面向事件的新闻展现方法和装置在审
申请号: | 201210487000.X | 申请日: | 2012-11-26 |
公开(公告)号: | CN103020159A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 严龙;杨宇鸿 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 倪志华 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 事件 新闻 展现 方法 装置 | ||
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种面向事件的新闻展现方法和装置。
【背景技术】
随着互联网技术的迅速发展和普及,越来越多的用户通过网络获取最新的咨询信息,新闻频道就是其中网站提供的一种供用户浏览和订阅新闻的比较方便的方式,通过新闻频道用户希望全面地了解新闻所报导的事件,甚至订阅该事件的后续事件报导。
现有新闻频道提供的新闻展现方式主要包括以下两种:
第一种方式:以网易、新浪为代表的传统门户网站,其普通新闻大多以人工编辑为主,以关键字关联相关新闻引导读者阅读,并供读者进行订阅。另外,其重大新闻事件会以人工专题的形式为用户提供事件的全景展现。
第二种方式:以谷歌新闻、百度新闻为代表的搜索引擎提供商,其使用搜索和新闻聚类技术搜集和整理互联网新闻,以主题展现相关新闻,并提供基于关键字的订阅服务。
虽然第一种方式中重大新闻事件以专题形式展现有很好的用户体验,但是人工编辑成本较高。
第二种方式虽然采用新闻聚类技术自动实现了新闻的搜集和整理,并自动提炼出主题,降低了人工编辑成本,但其采用的新闻聚合方式并没有体现新闻事件之间的关联关系,例如新闻事件的上下文、前因后果等信息。
【发明内容】
有鉴于此,本发明提供了一种面向事件的新闻展现方法和装置,以便于降低人工编辑成本的同时,体现新闻事件之间的关联关系。
具体技术方案如下:
一种面向事件的新闻展现方法,该方法包括:
S1、从新闻源获取新闻数据;
S2、对获取到的新闻数据基于内容进行聚类,得到各新闻簇对应的新闻事件;
S3、判断步骤S2得到的新闻事件与已经存在的新闻事件在内容和时间上的聚合状况,确定在内容和时间上的聚合状况均满足聚合要求的新闻事件属于同一新闻事件,对属于同一新闻事件的新闻事件进行合并展现;确定在内容上的聚合状况满足聚合要求但时间上的聚合状况不满足聚合要求的新闻事件存在关联关系,在展现存在关联关系的新闻事件的同时展现新闻事件之间的关联关系。
根据本发明一优选实施例,在所述步骤S3中还包括:确定在内容上和时间上均不满足聚合要求的新闻事件分别为独立的新闻事件,在展现时分别展现独立的新闻事件。
根据本发明一优选实施例,步骤S2中所述对获取到的新闻数据基于内容进行聚类具体包括:
从获取的新闻数据中各篇新闻的新闻摘要中提取关键词构成各篇新闻的特征向量;
将所述各篇新闻的特征向量组成一个特征向量矩阵后,采用奇异值分解算法对特征向量矩阵进行分解,得到各篇新闻的主题分类,将属于同一主题的新闻构成新闻簇。
根据本发明一优选实施例,所述得到各篇新闻的主题分类具体包括:
依据奇异值分解结果中的左奇异矩阵得到各篇新闻与各主题类之间的相关度,确定各篇新闻属于与其相关度最高的主题,将属于同一主题的新闻聚合成新闻簇。
根据本发明一优选实施例,所述新闻簇对应的新闻事件包括:新闻簇中各篇新闻的特征向量合并后得到的特征向量以及新闻簇中各新闻发生时间构成的时间戳。
根据本发明一优选实施例,在判断步骤S2得到的新闻事件与已经存在的新闻事件在内容上的聚合状况时,计算所述步骤S2得到的新闻事件对应的特征向量与已经存在的新闻事件对应的特征向量之间的相似度,确定相似度达到预设相似度阈值的新闻事件在内容上的聚合程度满足预设的聚合要求。
根据本发明一优选实施例,在判断步骤S2得到的新闻事件与已经存在的新闻事件在时间上的聚合状况时,采用k-means算法对所述步骤S2得到的新闻事件所对应的时间戳中心点与已经存在的新闻事件所对应的时间戳中心点进行k-means计算,得到k个聚类结果,k为正整数,确定属于同一聚类的新闻事件在时间上的聚合状况满足预设聚合要求。
根据本发明一优选实施例,在对新闻事件进行合并时,包括对特征向量的合并和对时间戳的合并。
根据本发明一优选实施例,所述关联关系的建立为:将数据库中存在关联关系的新闻事件的索引采用链表的方式建立关联关系;
所述关联关系的展现包括:采用文字、标识或特殊的排版方式体现新闻事件之间存在关联关系。
根据本发明一优选实施例,该方法还包括:
如果用户订阅的新闻事件发生合并,则将该新闻事件对应的新得到的新闻推送给用户;
如果出现与用户所订阅新闻事件存在关联关系的新的新闻事件,则将该新的新闻事件对应的新闻推送给用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210487000.X/2.html,转载请声明来源钻瓜专利网。