[发明专利]一种自动文本摘要方法有效
申请号: | 201911047825.8 | 申请日: | 2019-10-30 |
公开(公告)号: | CN111008277B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 花福军;陆文斌;周正斌;廖文绪;张应福 | 申请(专利权)人: | 创意信息技术股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 袁英 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 文本 摘要 方法 | ||
本发明公开了一种自动文本摘要方法,一种自动文本摘要方法,包括:文本预处理,建立文本字符到数字编号的映射,将文本字符转化成用于计算的向量编码;编解码器预训练,训练出能将长文本编码并解码为短文本的编解码器初始化网络;生成对抗网络优化,优化编解码网络中的编码器参数;解码器优化,当编码器优化后,重复多次训练编解码网络以优化解码器,提高生成文本的BLEU值。本发明能适应多种语言场景下的文本摘要任务,生成的摘要具有良好的可读性。
技术领域
本发明涉及自然语言处理技术,特别是涉及一种自动文本摘要方法。
背景技术
互联网技术让信息的采集和传播更加快速,使人们进入了一个信息爆炸的时代。丰富多样的信息资源一方面给人们的生活带来极大便利,但海量的信息也给人们带来很大困扰,如何从互联网中数以万亿的信息中快速取得自己想要的信息,成为一件具有挑战的事情。一般来说,未经处理的原文冗余信息过多,需要花费长时间阅读,真正需要的信息被无关信息覆盖,造成用户信息获取困难。在这个信息高速增长的互联网时代,研究一种可以用于提取文本中关键信息的自动文本摘要方法,可以提高用户的信息查询效率和阅读效率,方便人们的工作和生活。
自动文本摘要,目前的方法集中在以下几个方面:
1.基于统计学的方法
基于统计学的方法,对文章进行抽取式摘要,统计学方法通过“词频”这一文本特征来进行句子的选取,文中出现频率高的词语与文章表达主题的关系相对比较密切,可以根据在文章中出现的频率计算词语权重。基于词语权重、句子的位置特征等多个文本特征结合计算出句子权重,选择权重较大的句子作为文章的摘要。
这种方法的优点算法简单,且不会破坏单个句子的可读性,但往往由多个句子组合出来的摘要整体不连贯,概括性不好。
2.基于机器学习的方法
基于传统机器学习的方法一般是通过朴素贝叶斯分类模型的新方法判定文档中的某一个句子是否应该被选取作为摘要。或者基于隐马尔可夫模型,对文档中的一些特征计算句子得分,根据句子得分生成文本摘要。或者使用线性回归模型建模生成文本摘要。
同基于统计学的方法相比,基于机器学习的方法泛化能力更强,扩展性和算法性能更好。但机器学习的方法还是从原文中抽取内容拼接成文本摘要,同样具备概括性不好的缺点。
3.基于深度学习的方法
随着计算机性能的不断增长,深度学习逐渐登上了舞台。目前深度学习方法在自然语言处理领域有一个基本方向:首先寻求文本在指定维数空间内的语义表示,然后再应用到不同的任务中。深度学习应用于文本摘要的生成,可以基于Sequence-to-Sequence模型,将卷积模型应用于对原文档进行编码,然后利用上下文之间的注意力前馈神经网络生成摘要。深度学习的方法更接近于人工的摘要方式:理解内容之后生成概括,目前效果最好,但是需要大量人工标注的样本,训练成本很高。
发明内容
本发明的目的在于实现一种自动文本摘要方法,能适应多种语言场景下的文本摘要任务,生成的摘要具有良好的可读性,同时可以提高生成文本BLEU分值。
一种自动文本摘要方法,包括:
文本预处理,建立文本字符到数字编号的映射,将文本字符转化成用于计算的向量编码;
编解码器预训练,训练出能将长文本编码并解码为短文本的编解码器初始化网络;
生成对抗网络优化,优化编解码网络中的编码器参数;
解码器优化,当编码器优化后,重复多次训练编解码网络以优化解码器,提高生成文本的BLEU值。
进一步地,所述文本预处理,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创意信息技术股份有限公司,未经创意信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911047825.8/2.html,转载请声明来源钻瓜专利网。