[发明专利]一种利用关联模型实现自动摘要的方法无效
申请号: | 200810175851.4 | 申请日: | 2008-11-06 |
公开(公告)号: | CN101393545A | 公开(公告)日: | 2009-03-25 |
发明(设计)人: | 邓剑波;倪显见;戴云川;詹天荣;张森;胡显茹 | 申请(专利权)人: | 新百丽鞋业(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518033广东省深圳市福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 关联 模型 实现 自动 摘要 方法 | ||
技术领域
本发明涉及一种利用关联模型实现自动摘要的方法,可用于自动摘要以及相关的文档分析中。
技术背景
所谓的自动摘要就是利用计算机自动地从原始文献中提取摘要的方法。目前有四种实现自动摘要的通用方法:
1.自动摘录法:它是将文本看成句子的线性排列,将句子看成词的线性序列,通过词频信息来衡量词的重要性,根据关键词的频率和关键词的数量得到句子的重要程度(权重),进而挑选重要语句得到文章的摘要。此方法的特点是通用性好,速度快,方法简单,准确性低,且文章越短准确性越低,对文章结构一无所知。
2.基于理解的自动摘要法:它利用语言学知识获取语言结构,更重要的是利用领域知识判断,推理,得到摘要的意义表示,最后由意义表示生成摘要。此方法的特点是,需要有庞大的领域知识库,速度极慢,效果很好,但是由于效率问题,难以达到实用的程度,几乎没有真正意义上的实现。
3.信息提取法:它先对文本进行主题识别,再选择已经编好的该领域的文档框架,对文本中有用的信息进行有限深度的分析,利用特征文本提取相关的语段或句子填充文档框架,再利用文档模板将文档框架中的内容重新组织成摘要输出。此方法的特点是,需要有庞大详尽的领域知识库,效果比较好,速度比较慢,但能够接受,目前很多商用自动文摘软件使用此方法,但是此方法通用性较差,需要大量的人来从事文档框架的分析和添加等知识库的构建工作。
4.基于结构的自动摘要法:如果将文档中的各个语言单元视为节点,并在两个有语义联系的单元之间引一条边,那么就得到一个语言单元的网络。在网络中,与一个节点相连的边数成为该节点的“度”。节点的度越大,则认为节点在网络中越重要,进而可以生成摘要。此方法相对来说比较理想,效率与准确度都能使人比较满意。
实现自动摘要需要面临的两个基本问题是:如何将文档表示成为计算机能够处理的形式;以及以何种途径从文档中自动得到所需要的摘录句子。
发明内容
本发明的目的在于提出一种基于结构的,效率与准确度皆高的自动摘要的方法。
本发明是一种利用关联模型实现自动摘要的方法,包括以下几个步骤:
(1)对文章进行预处理:基于标点,将文档切分为句子序列,统计全文词频,综合词性信息,使用关键词生成模块,得到文中的关键词与词频信息;
(2)对文章进行关联模型化处理:
A.关键词权值的关联度优化:若多个关键词之间出现有主题上的关联,将该种关联作为一个调节因子加到原关键词的权值上;
B.句子关联化:根据关键词列表中的信息,反过来可以得到每个句子关键词的词频,依据每个句子所包含的关键词和词频信息可通过公式计算得到句子间的关联度,从而得到整个文章的句子关联网络;
(3)基于句子关联网络的文章分析:
A.基于文章内容主轴的分析:针对文章规模小于给定阈值的文章,可以把文章看成是句子和其关联度组成的关联网络,求出每个句子与文章内容主轴的关联度,即得到每个句子与全文的关联度,即每个句子在文章中所占的权重;
B.基于文章子主题的分析:针对文章规模大于给定阈值的文章,可以把文章看成是由若干子主题构成的,每个子主题由一个句子簇构成,每个句子簇有一个句子簇的内容主轴,可以基于句子关联网络,按句子间的相关度将文档划分为表示不同子主题的句子簇序列;
(4)生成摘要并输出
最后,在全文或每个簇中,按句子的权重由高到低排列,根据用户需要的摘要文字的规模,依次选出权重相对较高的句子,通过用户界面输出给用户使用。
所述的关键词关联度优化的方法指的是:若一个句子中包含关键词A和关键词B,从关键词关联库中读取该关键词的关联度,关键词B相对于关键词A的关联度为h21,关键词A相对于关键词B的关联度为h12,且其原来的权值分别为r1和r2,则计入关键词B相对于关键词A的关键词关联度后A的权值将从r1变到r1+r2*h21,计入关键词A相对于关键词B的关键词关联度后B的权值将从r2变为r2+r1*h12。
在基于文章子主题的分析中,一般采用基于文章子主题分析中的“段比段划分法”;遇到较大的自然段时采用基于文章子主题分析中的“基本划分法”。
所述的划分子主题的“基本划分法”指的是,根据句子关联度,先设定一个句子关联度阈值参数,当句子关联度大于这个参数时则认为两个句子属于同一个句子簇,即在同一个子主题下;同时还需要设置另一个句子簇规模阈值参数,当句子簇中的字数大于句子簇规模阈值,则认为该句子簇有效。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新百丽鞋业(深圳)有限公司,未经新百丽鞋业(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810175851.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:废气净化器
- 下一篇:一种冷冻虾仁的质量评价方法