[发明专利]基于人工智能的新闻摘要提取方法及装置有效
申请号: | 201710016516.9 | 申请日: | 2017-01-10 |
公开(公告)号: | CN106844341B | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 闭玮;刘志慧;曹宇慧;周古月;石磊;何径舟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/258 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 新闻 摘要 提取 方法 装置 | ||
1.一种基于人工智能的新闻摘要提取方法,其特征在于,包括:
基于新闻事件的关键词检索得到所述新闻事件的新闻簇;
从所述新闻簇包括的所有新闻中获取所述新闻事件的核心新闻;
将所述新闻簇包括的所有新闻按照句子进行拆分,获取每两个句子之间的语义相似度;
基于每两个句子之间的所述语义相似度从所述核心新闻中选取重要句子;
按照所述重要句子在所述核心新闻中原文的顺序进行拼接,形成所述新闻事件的摘要;
所述基于每两个句子之间的所述语义相似度从所述核心新闻中选取中重要句子,包括:
以所述核心新闻中的一个句子为顶点节点构建所述新闻簇的无向图;所述无向图中将所述新闻簇中的每个句子作为一个节点,在每两个句子之间形成连线;
利用每两个句子之间的所述语义相似度形成带权的所述无向图;
基于带权的所述无向图从所述核心新闻中选取重要句子。
2.根据权利要求1所述的基于人工智能的新闻摘要提取方法,其特征在于,所述从所述新闻簇包括的所有新闻中获取所述新闻事件的核心新闻,包括:
获取所述新闻簇中每个新闻的特征集合;
根据所述特征集合得到每个新闻的重要性;
选择重要性最高的新闻作为所述核心新闻。
3.根据权利要求2所述的基于人工智能的新闻摘要提取方法,其特征在于,所述根据所述特征集合得到每个新闻的重要性,包括:
对每个特征集合中的各特征打分;
将每个特征集合中的各特征打分后按照各特征对应的权重进行加权,得到每个新闻的重要性。
4.根据权利要求1所述的基于人工智能的新闻摘要提取方法,其特征在于,所述获取每两个句子之间的语义相似度,包括:
按照至少一种语义相似度算法计算每个句子与其他句子之间的中间语义相似度;
对得到的所述中间语义相似度进行加权,得到每个句子与所述其他句子之间的所述语义相似度。
5.根据权利要求4所述的基于人工智能的新闻摘要提取方法,其特征在于,所述利用每两个句子之间的所述语义相似度形成带权的所述无向图,包括:
利用两个句子之间的所述语义相似度作为所述无向图中两个句子之间的连线上的边权,形成带权的所述无向图。
6.根据权利要求5所述的基于人工智能的新闻摘要提取方法,其特征在于,所述基于带权的所述无向图从所述核心新闻中选取重要句子,包括:
从带权的所述无向图中,获取每个句子的与其直接相连的其他句子之间所有连线上的边权;
对每个句子的所有连线上的边权进行相加,得到该句子的重要程度;
对所述新闻簇中所有句子按照重要程度进行排序;
从所有句子中选择出重要程度超过预设的阈值的句子作为候选句子;
从所述候选句子中选择来源于所述核心新闻的句子作为所述重要句子。
7.根据权利要求5所述的基于人工智能的新闻摘要提取方法,其特征在于,所述基于带权的所述无向图从所述核心新闻中选取重要句子,包括:
从带权的所述无向图中,获取所述核心新闻中每个句子的与其直接相连的其他句子之间所有连线上的边权;
将所述核心新闻中每个句子的所有连线上的边权进行相加,得到该句子的重要程度;
对所述核心新闻中所有句子按照重要程度进行排序;
从所述核心新闻中所有句子中选择出重要程度超过预设的阈值的句子作为所述重要句子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710016516.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动化贴合出标机
- 下一篇:一种贴标机用标签运输机构