[发明专利]互联网新闻的自动生成方法和装置有效
申请号: | 201610154211.X | 申请日: | 2016-03-16 |
公开(公告)号: | CN105787095B | 公开(公告)日: | 2019-09-27 |
发明(设计)人: | 石忠民;江云辉 | 申请(专利权)人: | 广州索答信息科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/22;G06F17/27;G06F16/23 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙) 44288 | 代理人: | 秦维 |
地址: | 510000 广东省广州市高新技术产业开*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种互联网新闻的自动生成方法和装置,方法包括以下步骤:利用分布式爬虫从特定的新闻网站抓取新闻页面的源代码;分别从各个新闻页面的源代码中提取新闻信息,并分别将各个新闻信息封装成相同结构的结构化新闻;对获取到的结构化新闻进行识别,得到相互独立的新闻事件,每个新闻事件中包括多个属于同一事件的结构化新闻,且同一新闻事件中的每个结构化新闻分别表示不同的事件阶段;分别对新闻事件中的每个结构化新闻生成对应的新闻摘要;将新闻事件中的多个结构化新闻以发布时间为条件进行排序,排序后以各个结构化新闻所对应的新闻摘要生成事件脉络结构。本发明以时间为主线展现完整的新闻事件,让用户轻松了解事件的发展过程。 | ||
搜索关键词: | 互联网 新闻 自动 生成 方法 装置 | ||
【主权项】:
1.互联网新闻的自动生成方法,其特征在于,包括以下步骤:S1、利用分布式爬虫从特定的新闻网站抓取新闻页面的源代码;S2、分别从各个新闻页面的源代码中提取新闻信息,并分别将各个新闻信息封装成相同结构的结构化新闻;S3、对获取到的结构化新闻进行识别,得到相互独立的新闻事件,每个新闻事件中包括多个属于同一事件的结构化新闻,且同一新闻事件中的每个结构化新闻分别表示不同的事件阶段;S4、分别对新闻事件中的每个结构化新闻生成对应的新闻摘要;S5、将新闻事件中的多个结构化新闻以发布时间为条件进行排序,排序后以各个结构化新闻所对应的新闻摘要生成事件脉络结构;在步骤S3中,对获取到的结构化新闻进行识别包括下子步骤:S31、分别对每个结构化新闻进行关键词识别,得到每个结构化新闻所对应的关键词集合;S32、根据关键词集合的相似度对每个结构化新闻进行分组,得到多个新闻分组,属于同一新闻分组的结构化新闻为相同新闻;S33、根据新闻分组的相似度对每个新闻分组进行聚类,并将每个聚类中的每个新闻分组中发布时间最早的结构化新闻提取出来,属于同一聚类中被提取出来的结构化新闻组成对应的新闻聚类;S34、分别判断每个新闻聚类是否满足预设的事件条件,若是,则将该新闻聚类记为新闻事件,若否,则丢弃该新闻聚类;在步骤S4中,结构化新闻生成对应的新闻摘要包括以下步骤:S41、对该结构化新闻的正文进行分句,并保留句子长度在预设长度范围内的句子,记为保留句子;S42、分别计算每个保留句子与标题的相似度Similarity(s),以及每个保留句子的权重Weight(s);S43、根据公式Rank(s)=Weight(s)/Similarity(s)计算每个保留句子的排序分,其中,Rank(s)为保留句子的排序分;S44、选取排序分最高的保留句子作为该结构化新闻的摘要。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州索答信息科技有限公司,未经广州索答信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610154211.X/,转载请声明来源钻瓜专利网。