[发明专利]一种基于文本多维度特征自动生成摘要的方法和装置有效

专利信息
申请号: 201410003152.7 申请日: 2014-01-03
公开(公告)号: CN103699525A 公开(公告)日: 2014-04-02
发明(设计)人: 罗晶 申请(专利权)人: 江苏金智教育信息技术有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 江苏银创律师事务所 32242 代理人: 孙计良
地址: 211100 江苏省南*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 文本 多维 特征 自动 生成 摘要 方法 装置
【说明书】:

技术领域

发明涉及信息检索领域,具体涉及一种为文本文档自动生成摘要的方法和装置。

背景技术

随着互联网技术的发展,人们从网络中获取到的信息量越来越大,如何从海量信息中快速获取到有效信息一直是信息检索领域的研究热点。文本自动摘要是指利用计算机处理自然语言文本,自动从原始文本中提取文摘,文摘能准确地反映出文本的中心内容。这种技术能有效降低互联网用户所面临的信息过载问题,帮助用户更快、更有效地从互联网定位到需要的信息。

文本自动摘要出现于20世纪50年代末,可以分为基于统计的文本自动摘要、基于理解的文本自动摘要、基于信息抽取的文本自动摘要和基于结构的文本自动摘要。

1. 基于统计的文本自动摘要方法通过对词和句子的统计特征计算,摘录权重较高的原文句子形成文摘。这种方法不受领域限制、速度快、摘要长度可调节,但局限于文本表层信息,生成的摘要质量较差,存在内容不全面、语句冗余、不连贯等问题;

2. 基于理解的文本自动摘要可以通过对文本语法、语义和语用信息进行深层分析,提取出有用信息,最终形成连贯的文摘。这种方法可以深入理解文本,但是却有严格的领域限制,无法推广使用;

3. 基于信息抽取的文本自动摘要只对有用的文本片段进行有限的深度分析,效率和灵活性比基于理解的文摘高。但是这种方法以依赖领域知识的摘要框架为中枢,仍然受到领域的限制;

4. 基于结构的文本自动摘要将文本信息当作句子的关联网络,选择与其他句子联系较多的中心句构成摘要。这种方法可以避免领域限制,对结构规范的文章提取文摘质量高,但是互联网上的文章结构灵活,可用的统一结构规则并不多。

上述这些现有的文本自动摘要方法各有所长,适用于不同的场景,针对某一类型的文本进行自动摘要。这些方法实际上都是通过计算句子的权重,然后选择权重值高的句子作为摘要。所不同的是具体的句子的权重的计算方法之间的区别。也就是说,自动生成文档摘要功能中,计算句子权重的算法的好坏决定了自动生成文档的摘要的好坏。文献CN101446940也同样公开了一种句子权重的计算方法,该方法还是存在着一些欠缺。

总体来说,现有的算法下,只能针对特定领域来源的文档,在某一特定领域下,该算法可能具有相当好的技术效果,但是在其他领域下,该算法却存在很大的问题。特别是针对新闻门户、博客、论坛、微博等不同的文本来源,这些现有的算法还存在着一些缺陷。

发明内容

本发明所要解决的问题是更好地生成文本摘要,并增加生成的文本摘要的可读性。 

一种基于文本多维度特征自动生成摘要的方法,该方法包括以下步骤:

S1:断句,将文本拆分成句子;

S2:分词,将本文拆分成关键词;

S3:计算各个句子的权重值Wi;

S4:根据句子的权重值选择句子构成摘要。

其中所述的步骤S3包括:

S31:计算每个句子与各个关键词的权重Wij;

S32:计算每个句子的位置权重值WPi、精炼权重值WCi、语义权重值WSi;

S33:计算每个句子的权重值Wi,                                               ,其中为权重系数。

进一步,根据本发明的基于文本多维度特征自动生成摘要的方法,所述的步骤S4包括:

S41:采用聚类算法将句子聚类成话题簇CP ;

S42各话题簇选取权重值Wi最高的句子构成摘要。

进一步,根据本发明的基于文本多维度特征自动生成摘要的方法,所述的Wij表示文本第i个句子的第j个关键词的特征权重,Wij满足如下计算公式:

其中,表示第j个关键词在第i个句子中出现的频数;表示各句子中包含有第j个关键词的句子数;m为句子总数;n为关键词总数。

进一步,根据本发明的基于文本多维度特征自动生成摘要的方法,所述的位置权重值WPi表示第i个句子的位置权重值,WPi满足如下计算公式:

其中,m为句子总数。

进一步,根据本发明的基于文本多维度特征自动生成摘要的方法,所述的精炼权重值WCi表示第i个句子的精炼权重值,WCi满足如下计算公式:

其中,Wij表示文本第i个句子的第j个关键词的特征权重;为句子的字符数;n为关键词总数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏金智教育信息技术有限公司,未经江苏金智教育信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410003152.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top