[发明专利]互联网新闻的自动生成方法和装置有效
申请号: | 201610154211.X | 申请日: | 2016-03-16 |
公开(公告)号: | CN105787095B | 公开(公告)日: | 2019-09-27 |
发明(设计)人: | 石忠民;江云辉 | 申请(专利权)人: | 广州索答信息科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/22;G06F17/27;G06F16/23 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙) 44288 | 代理人: | 秦维 |
地址: | 510000 广东省广州市高新技术产业开*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网 新闻 自动 生成 方法 装置 | ||
本发明公开了一种互联网新闻的自动生成方法和装置,方法包括以下步骤:利用分布式爬虫从特定的新闻网站抓取新闻页面的源代码;分别从各个新闻页面的源代码中提取新闻信息,并分别将各个新闻信息封装成相同结构的结构化新闻;对获取到的结构化新闻进行识别,得到相互独立的新闻事件,每个新闻事件中包括多个属于同一事件的结构化新闻,且同一新闻事件中的每个结构化新闻分别表示不同的事件阶段;分别对新闻事件中的每个结构化新闻生成对应的新闻摘要;将新闻事件中的多个结构化新闻以发布时间为条件进行排序,排序后以各个结构化新闻所对应的新闻摘要生成事件脉络结构。本发明以时间为主线展现完整的新闻事件,让用户轻松了解事件的发展过程。
技术领域
本发明涉及计算机信息处理领域,具体涉及一种互联网新闻事件的自动生成方法和装置。
背景技术
随着移动互联网技术的发展,如今,人们越来越多地通过手机等终端设备浏览新闻,由于受手机设备屏幕小的限制,受众阅读碎片化导致新闻文本叙事碎片化。以往,人们消费新闻的时间、场景相对比较固定,比如在晚饭时观看电视新闻,在早饭时浏览报纸新闻或听早间广播等,到了移动互联网时代,受众新闻消费呈现出高度的离散性,手机等便携移动终端的使用和公共休闲场所或是公共交通工具上无线网络的覆盖使得新闻受众能在任何时间、任何地点获取新闻。而这些获取新闻的时间通常是碎片化的,长则一个小时短则几分钟,如果一则消息不能在短短的几秒内抓住受众的注意力,那么移动网络的刷新功能会立刻用其它信息覆盖这条消息。
互联网上的内容每天都处于快速的增长之中,这给搜索引擎带来了全新的挑战。不仅如此,广大用户的要求也日益严苛,他们要的不仅是准确的匹配结果,更是能够解决问题的答案。在日趋嘈杂的网络内容环境下,搜索引擎要更加聪明和智慧,要更加理解不同用户、不同关键词背后真正的意图,以及用户所希望获得的内容,并通过技术创新和资源整合,给予清晰的呈现。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种互联网新闻的自动生成方法和装置,以时间为主线展现完整的新闻事件,让用户再不用自己梳理,就能轻松了解整个事件的发展过程,从而有效提高获取信息的效率,并引导用户进行深度阅读。
为解决上述问题,本发明所采用的技术方案如下:
方案一:
互联网新闻的自动生成方法,包括以下步骤:
S1、利用分布式爬虫从特定的新闻网站抓取新闻页面的源代码;
S2、分别从各个新闻页面的源代码中提取新闻信息,并分别将各个新闻信息封装成相同结构的结构化新闻;
S3、对获取到的结构化新闻进行识别,得到相互独立的新闻事件,每个新闻事件中包括多个属于同一事件的结构化新闻,且同一新闻事件中的每个结构化新闻分别表示不同的事件阶段;
S4、分别对新闻事件中的每个结构化新闻生成对应的新闻摘要;
S5、将新闻事件中的多个结构化新闻以发布时间为条件进行排序,排序后以各个结构化新闻所对应的新闻摘要生成事件脉络结构。
优选的,所述结构化新闻至少包括标题、正文和发布时间。
优选的,对获取到的结构化新闻进行识别包括下子步骤:
S31、分别对每个结构化新闻进行关键词识别,得到每个结构化新闻所对应的关键词集合;
S32、根据关键词集合的相似度对每个结构化新闻进行分组,得到多个新闻分组,属于同一新闻分组的结构化新闻为相同新闻;
S33、根据新闻分组的相似度对每个新闻分组进行聚类,并将每个聚类中的每个新闻分组中发布时间最早的结构化新闻提取出来,属于同一聚类中被提取出来的结构化新闻组成对应的新闻聚类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州索答信息科技有限公司,未经广州索答信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610154211.X/2.html,转载请声明来源钻瓜专利网。