[发明专利]一种结构化摘要的生成方法无效
申请号: | 201210036872.4 | 申请日: | 2012-02-17 |
公开(公告)号: | CN102622411A | 公开(公告)日: | 2012-08-01 |
发明(设计)人: | 黄民烈;朱小燕 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中北知识产权代理有限公司 11253 | 代理人: | 冯梦洪 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结构 摘要 生成 方法 | ||
技术领域
本发明涉及计算机应用技术的技术领域,具体地涉及一种结构化摘要的生成方法。
背景技术
在当今信息爆炸时代,多文档摘要能够使读者高效、省时地了解信息。传统文档摘要方法所生成的摘要内容通常是无结构的,信息内容上缺乏有效的组织,并且可读性比较差。例如,对于产品评论,一般来说,用户总是围绕着产品或服务的某些属性或侧面对产品或服务进行评论和打分。例如,手机的属性包括电池、屏幕、系统、应用等;汽车的属性包括安全性、油耗、内饰等。对于新闻文档来说,可以从时间、地点、人物、事件等结构来描述;或者根据具有聚类性质的子话题来描述摘要内容的结构。
考虑这些产品不同属性或不同侧面,或不同子话题的摘要生成方法叫做结构化的摘要生成方法。而这些不同属性或不同侧面,或不同子话题被统一称作aspect(属性,或属性词)。
aspect刻画和反映了某种对象的特定属性,例如汽车的安全性,而在汽车安全性这个aspect中,刹车、安全气囊、碰撞和稳定性等词的出现概率比较高。这些aspects可以用来指导摘要的生成,并把摘取的句子分配到相应的aspect中,从而得到结构化的摘要,大大改善摘要的质量和可读性。
摘要内容多样化和冗余去除在文档摘要系统中起着重要作用。最大边际相关性(Maximal Marginal Relevance,MMR)作为一种常用的冗余去除方法,把信息与查询的相关度(或者信息重要性)和信息的新颖性结合起来,通过线性加权的方式平衡候选句子的重要性和候选句子与已选句子的重复程度。该方法每次选取MMR值最大的句子,直至达到摘要长度或者句子数目的限制。
结构化摘要中,对每一个aspect定义一个同义词集,并将该同义词集作为aspect的指示词。如果一句话含有某个aspect的任意一个指示词,则给该评论赋予这个aspect的标签。这样得到aspect的句子集合,然后计算MMR的值,MMR的计算公式如下:
其中,Ra是所有和aspect a相关的句子的集合,S是已经抽取的句子,D1是句子si归一化后的排序分数(可以是把句子中单词的文档频率相加的值)。D2是si和sj之间的相似度,参数λ用来调节分数D1和相似度D2的影响。
这种方法没有考虑各个aspect的相对重要性,同时局限于预先定义的aspect同义词集,不能够很好的扩展。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种自动生成aspect的指示词并综合考虑每个aspect的重要性的结构化摘要的生成方法。
本发明的第一技术方案是:这种结构化摘要的生成方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210036872.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:薄膜晶体管阵列基板及其制作方法
- 下一篇:处理空气和材料中的杂质的装置和方法