[发明专利]基于稀疏学习的突发事件摘要抽取方法有效

申请号：	201610841942.1	申请日：	2016-09-22
公开（公告）号：	CN106484797B	公开（公告）日：	2020-01-10
发明（设计）人：	杨震;姚应哲	申请（专利权）人：	北京工业大学
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F16/35;G06N5/02
代理公司：	11203 北京思海天达知识产权代理有限公司	代理人：	张慧
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开一种基于稀疏学习理论的突发事件摘要抽取方法，包括：获取突发事件话题，对每个突发事件话题进行查询扩展，得到事件话题的扩展话题词项集合；根据每个事件查询扩展后的扩展话题词项对每个事件进行检索，获得与每个事件话题相关的文档集合；利用非负矩阵分解的方法依次对每个话题的文档集合进行特征选取和语义聚类，得到每个事件的话题聚类结果；根据最大边缘相关性方法(MMR)，从聚类结果中抽取具有代表性的句子作为最终的摘要结果。采用本发明的技术方案，在突发事件爆发时，面对海量冗余的新闻报道流，为用户提供事件发展的最新状况信息。
搜索关键词：	基于稀疏学习突发事件摘要抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于稀疏学习理论的突发事件摘要抽取方法，其特征在于，包括以下步骤：/n步骤S1、获取TREC 2015 Temporal Summarization track提供的p个突发事件话题，其中p取值为21，对每个突发事件话题进行查询扩展，得到其扩展后的话题词项集；/n①利用python StreamCorpus工具解压解析原始语料，获得p个简短的突发事件话题；/n②对原始话题进行分词，去停用词预处理，只保留有意义的话题词项；/n③分别利用Google，BaiDu，Bing三种搜索引擎API，对每个话题词项进行检索，返回与该事件话题相关的页面；/n④对于每个搜索引擎的返回结果，只保留最相关的前N个页面标题，这里N＝50，之后对网页标题进行分词，去停用词，并计算每个词的共现页面数DF；/n⑤对于每一个事件话题，按照页面标题词项DF值由大到小排序，选取前10个词项作为扩展词项，和原始词项一起形成该话题扩展后的查询词项集；/n步骤S2、首先对TREC-TS-2015F-RelOnly数据集进行解密、解压、解析，转换成TREC格式的数据，然后基于Lemur的概率检索模型，根据每个事件查询扩展后的词项集对其话题语料进行检索，获得和该事件话题相关的句子集合；/n①利用python streamcorpus API对数据集进行解密、解压，解析成lemur可检索的格式；/n②运用lemur概率检索模型，根据每个话题查询扩展后的词项集对该话题语料集进行检索，并依据该话题数据集的规模大小，选择一定数量的检索结果；每一个事件话题具体检索过程如下：/n1)、构建索引，运用检索工具对语料集构建索引；/n2)、选用要使用的检索模型，这里选用概率模型；/n3)、在检索工具上，使用每个事件话题扩展后的词项集对其语料集进行检索，获取该事件话题最相关的前q条句子，q范围介于2000-6000，它根据该话题数据集的规模大小设置；/n4)、把检索结果保存在对应的文件中；/n步骤S3、采用基于非负矩阵分解的NMF-NPS方法分别对每个事件话题的检索结果语料集进行特征选取和语义聚类，抽取出每个事件话题的聚类结果；/n文中披露了一种近邻语义保持算子NPS的计算细节，并将其作为语义约束融合到特征降维的聚类建模中，同时，也对词项文档矩阵L分解形成的两个小矩阵U和H进行了范数约束，从而将降维过程和聚类过程统一建模；/n①采用矩阵分解的方法进行特征降维；/n矩阵分解是一个最优化问题，目标函数的形式如下：/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610841942.1/，转载请声明来源钻瓜专利网。

上一篇：文件管理方法、文件管理装置及移动终端
下一篇：一种热插拔式的业务单据增量捕获方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于稀疏学习的突发事件摘要抽取方法有效

专利文献下载