[发明专利]一种新闻综述生成方法与系统有效

申请号：	201710082757.3	申请日：	2017-02-16
公开（公告）号：	CN106874469B	公开（公告）日：	2020-05-05
发明（设计）人：	张建敏;万小军	申请（专利权）人：	北京大学
主分类号：	G06F16/34	分类号：	G06F16/34;G06F40/30
代理公司：	北京万象新悦知识产权代理有限公司 11360	代理人：	苏爱华
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种新闻综述生成方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种新颖的基于段落进行新闻综述生成的方法与系统，涉及语言文字处理领域。目前有大量关于同一个事件的新闻报道，且新闻报道的综述都是由人工编辑的，经济成本高，且很难保证时效性。本发明提出基于段落重新分割，排序，选择并融合的新闻综述生成方法与系统，有效提高新闻综述的时效性，降低编辑成本。其包括如下步骤：针对原始新闻材料的段落重新分割构建；对新闻材料重新构建出的段落进行重要性预测；根据段落重要性进行段落选择，融合；对选择出来的段落进行重排序，构成新闻综述。本发明适用于介绍同一事件的大量新闻报道。

技术领域

本发明涉及语言文字处理领域，特别涉及一种新闻综述生成方法与系统。

背景技术

目前有很多关于同一事件的新闻报道，并且新闻摘要可以帮助读者更好地了解新闻内容。但是传统的新闻摘要多局限在100-150字左右，内容覆盖面小，不可很好得使读者多方面全面的了解事件发展过程，综述生成应运而生。

与综述生成的方法最相近的是传统的多文档摘要方法。多文档摘要方法多基于句子进行抽取，基于句子的方法在面对生成文章长度较长时会出现句子过多，不容易进行排序等问题。经典的多文档摘要方法包括：基于图的排序方法，例如Erkan和Radev在2004年提出的LexRank方法，Mihalcea和Tarau在2004年提出的TextRank方法；You Ouyang等人在2007年提出的基于句子分类回归的模型；Gillick和Favre在2009年提出的基于整数线性规划的方法等。

除了多文档摘要的方法，相关的工作还有Sauper和Barzilay提出的自动生成结构完整的维基百科的工作。

发明内容

本发明提供一种新闻综述生成方法，该方法通过对面向同一事件的新闻的段落重新分割，重要性排序，选择并且合并以及最后的重新排序，最终基于重组得到的新闻段落构建新闻综述。该方法方便快捷，可行性强，效果明显好于原先的多文档摘要方法所得到的新闻综述，有效节省人力物力。

本发明采用的技术方案包括：一种基于段落重新分割，重要性预测，选择融合和重新排序的新闻综述生成方法，包括如下步骤：

(1)针对原始新闻材料的段落重新分割构建；

(2)对新闻材料重新构建出的段落进行重要性预测；

(3)根据段落重要性进行段落选择，融合；

(4)对选择出来的段落进行重排序，构成新闻综述。

进一步，针对原始新闻材料的段落重新分割构建的具体做法包括四个部分：对新闻材料进行分词(预处理)，计算句子间隔的语义学分数，计算句子间隔的“深度”分数，最后对新闻进行划分。

第一步：原始新闻材料进行分词等预处理。如果是英文的语料需要将单词都转化为小写字母，然后进行词干化，即将经过各种人称及时态变化的单词转化为其词干，如果是中文语料那么只需要进行分词。

第二步：计算句子间隔的语义学分数。由于句子是表达语义的较完整的单位，所以段落重新分割以句子的结束作为潜在的分割点是合理的。句子间隔的语义学分数来表明句子间隔前后两个单元的语义学相似度。而由于文章原有句子的长短十分不统一，不可以直接作为评价语义学相似度的单元，所以使用每个句子间隔前后的100个词语组成的文本单元作为计算语义相似度的内容。

对于每一个语义间隔，其前后的文本单位分别用b₁和b₂表示，那么句子间隔的语义学相似度可以用如下公式表示：

其中t表示所有在预处理过程中得到的原始新闻中的所有非停用词的词语。并且w_t，b代表词语t在语义单元b中的权重，这里的权重用词语t在语义单元b中出现的频数决定；这个权重的取值在0到1之间。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学，未经北京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710082757.3/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种新闻综述生成方法与系统有效

专利文献下载