[发明专利]一种结构化摘要的生成方法无效

专利信息
申请号: 201210036872.4 申请日: 2012-02-17
公开(公告)号: CN102622411A 公开(公告)日: 2012-08-01
发明(设计)人: 黄民烈;朱小燕 申请(专利权)人: 清华大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京中北知识产权代理有限公司 11253 代理人: 冯梦洪
地址: 100084*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 结构 摘要 生成 方法
【说明书】:

技术领域

发明涉及计算机应用技术的技术领域,具体地涉及一种结构化摘要的生成方法。

背景技术

在当今信息爆炸时代,多文档摘要能够使读者高效、省时地了解信息。传统文档摘要方法所生成的摘要内容通常是无结构的,信息内容上缺乏有效的组织,并且可读性比较差。例如,对于产品评论,一般来说,用户总是围绕着产品或服务的某些属性或侧面对产品或服务进行评论和打分。例如,手机的属性包括电池、屏幕、系统、应用等;汽车的属性包括安全性、油耗、内饰等。对于新闻文档来说,可以从时间、地点、人物、事件等结构来描述;或者根据具有聚类性质的子话题来描述摘要内容的结构。

考虑这些产品不同属性或不同侧面,或不同子话题的摘要生成方法叫做结构化的摘要生成方法。而这些不同属性或不同侧面,或不同子话题被统一称作aspect(属性,或属性词)。

aspect刻画和反映了某种对象的特定属性,例如汽车的安全性,而在汽车安全性这个aspect中,刹车、安全气囊、碰撞和稳定性等词的出现概率比较高。这些aspects可以用来指导摘要的生成,并把摘取的句子分配到相应的aspect中,从而得到结构化的摘要,大大改善摘要的质量和可读性。

摘要内容多样化和冗余去除在文档摘要系统中起着重要作用。最大边际相关性(Maximal Marginal Relevance,MMR)作为一种常用的冗余去除方法,把信息与查询的相关度(或者信息重要性)和信息的新颖性结合起来,通过线性加权的方式平衡候选句子的重要性和候选句子与已选句子的重复程度。该方法每次选取MMR值最大的句子,直至达到摘要长度或者句子数目的限制。

结构化摘要中,对每一个aspect定义一个同义词集,并将该同义词集作为aspect的指示词。如果一句话含有某个aspect的任意一个指示词,则给该评论赋予这个aspect的标签。这样得到aspect的句子集合,然后计算MMR的值,MMR的计算公式如下:

MMR=argmaxsiRa-S{λD1(q,si)-(1-λ)maxsjSD2(Si,Sj)}]]>

其中,Ra是所有和aspect a相关的句子的集合,S是已经抽取的句子,D1是句子si归一化后的排序分数(可以是把句子中单词的文档频率相加的值)。D2是si和sj之间的相似度,参数λ用来调节分数D1和相似度D2的影响。

这种方法没有考虑各个aspect的相对重要性,同时局限于预先定义的aspect同义词集,不能够很好的扩展。

发明内容

为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种自动生成aspect的指示词并综合考虑每个aspect的重要性的结构化摘要的生成方法。

本发明的第一技术方案是:这种结构化摘要的生成方法,包括以下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210036872.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top