[发明专利]一种利用关联模型实现自动摘要的方法无效
申请号: | 200810175851.4 | 申请日: | 2008-11-06 |
公开(公告)号: | CN101393545A | 公开(公告)日: | 2009-03-25 |
发明(设计)人: | 邓剑波;倪显见;戴云川;詹天荣;张森;胡显茹 | 申请(专利权)人: | 新百丽鞋业(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518033广东省深圳市福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 关联 模型 实现 自动 摘要 方法 | ||
1、一种利用关联模型实现自动摘要的方法,包括以下几个步骤:
(1)对文章进行预处理:基于标点,将文档切分为句子序列,统计全文词频,综合词性信息,使用关键词生成模块,得到文中的关键词与词频信息;
(2)对文章进行关联模型化处理:
A.关键词权值的关联度优化:若多个关键词之间出现有主题上的关联,将该种关联作为一个调节因子加到原关键词的权值上;
B.句子关联化:根据关键词列表中的信息,反过来可以得到每个句子关键词的词频,依据每个句子所包含的关键词和词频信息可通过公式计算得到句子间的关联度,从而得到整个文章的句子关联网络;
(3)基于句子关联网络的文章分析:
A.基于文章内容主轴的分析:针对文章规模小于给定阈值的文章,可以把文章看成是句子和其关联度组成的关联网络,求出每个句子与文章内容主轴的关联度,即得到每个句子与全文的关联度,即每个句子在文章中所占的权重;
B.基于文章子主题的分析:针对文章规模大于给定阈值的文章,可以把文章看成是由若干子主题构成的,每个子主题由一个句子簇构成,每个句子簇有一个句子簇的内容主轴,可以基于句子关联网络,按句子间的相关度将文档划分为表示不同子主题的句子簇序列;
(4)生成摘要并输出
最后,在全文或每个簇中,按句子的权重由高到低排列,根据用户需要的摘要文字的规模,依次选出权重相对较高的句子,通过用户界面输出给用户使用。
2、根据权利要求1所述的一种利用关联模型实现自动摘要的方法,其特征在于:所述的关键词关联度优化的方法指的是:若一个句子中包含关键词A和关键词B,从关键词关联库中读取该关键词的关联度,关键词B相对于关键词A的关联度为h21,关键词A相对于关键词B的关联度为h12,且其原来的权值分别为r1和r2,则计入关键词B相对于关键词A的关键词关联度后A的权值将从r1变到r1+r2*h21,计入关键词A相对于关键词B的关键词关联度后B的权值将从r2变为r2+r1*h12。
3、根据权利要求1所述的一种利用关联模型实现自动摘要的方法,其特征在于:在基于文章子主题的分析方法中,一般采用基于文章子主题分析中的“段比段划分法”;遇到较大的自然段时采用基于文章子主题分析中的“基本划分法”。
4、根据权利要求3所述的一种利用关联模型实现自动摘要的方法,其特征在于:所述的划分子主题的“基本划分法”指的是,根据句子关联度,先设定一个句子关联度阈值参数,当句子关联度大于这个参数时则认为两个句子属于同一个句子簇,即在同一个子主题下;同时还需要设置另一个句子簇规模阈值参数,当句子簇中的字数大于句子簇规模阈值,则认为该句子簇有效。
5、根据权利要求3所述的一种利用关联模型实现自动摘要的方法,其特征在于:所述的划分子主题的“段比段划分法”指的是,根据文章的自然段的划分情况,进行段与段之间的比较,将各个自然段落按其在文章中的顺序串联起来,计算文本上相邻两段的关联度,该关联度与段序号存在分布关系,对此分布以关联度的平均值作为阈值来切分出新的段落;考虑一个自然段,它与它前面紧邻的自然段的关联如果小于给定的阈值,则和前一段合并为一个主题,否则另起新的主题。
6、根据权利要求1所述的一种利用关联模型实现自动摘要的方法,其特征在于:在对文章预处理前,可以将文章按标题划分出多个文本块,再对每个文本块独立运用步骤(1)至(4)的摘要过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新百丽鞋业(深圳)有限公司,未经新百丽鞋业(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810175851.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:废气净化器
- 下一篇:一种冷冻虾仁的质量评价方法