[发明专利]一种自动文本摘要方法有效
申请号: | 201911047825.8 | 申请日: | 2019-10-30 |
公开(公告)号: | CN111008277B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 花福军;陆文斌;周正斌;廖文绪;张应福 | 申请(专利权)人: | 创意信息技术股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 成都金英专利代理事务所(普通合伙) 51218 | 代理人: | 袁英 |
地址: | 610000 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 文本 摘要 方法 | ||
1.一种自动文本摘要方法,其特征在于,包括:
文本预处理,建立文本字符到数字编号的映射,将文本字符转化成用于计算的向量编码;
编解码器预训练,训练出能将长文本编码并解码为短文本的编解码器初始化网络;
生成对抗网络优化,优化编解码网络中的编码器参数;
解码器优化,当编码器优化后,重复多次训练编解码网络以优化解码器,提高生成文本的BLEU值;
所述编解码器预训练,包括以下步骤:
S21:搭建编解码器模型,编码器采用双层双向LSTM,解码器采用双层单向LSTM,采用交叉熵误差作为loss,解码算法采用beam search算法;
S22:从全部训练集中抽取若干样本作为抽样训练集A,抽样训练集A的数量取值为全部训练集的20%;
S23:训练数据的长文本原文作为Input,目标摘要文本作为Label,文本数据通过文本预处理获得的字典由字符转换成数字编号,再转换成One-Hot向量,训练编解码器模型k个epoch,k取值为10;
S24:训练完成后,计算出训练集A所有样本的BLEU值,对于每一个样本的,BLEU值计算公式如下:
BLEU=BP×exp(logPn)
其中,Pn为n-gram精度分数,BP为简洁惩罚因子,c为生成的文本长度,r为有效参考语料库长度,取对应Label长度,计算公式如下:
所述生成对抗网络优化包括以下步骤:
S31:搭建Wasserstein GAN,用于生成对抗网络,此处选用WGAN-div,生成对抗网络中的生成器是在上一步预训练后编解码器网络中的编码器,判别器选择加了FM层的三层全连接二分类器;
S32:以抽样训练集A中BLEU值大小排名前10%的样本通过编码器转化为特征向量后作为真实分布集合B;
S33:冻结解码器的参数,从A集合中采样数据通过编码器E得到generate data,从B集合中采样得到true data,作为输入训练WGAN-div,交替训练WGAN-div中的生成器和判别器共k个epoch,此处k取值为100,以此优化编码器E的参数;
所述解码器优化,包括以下步骤:
S41:重新从全部训练集中抽取若干样本作为抽样训练集A,抽样训练集A的数量取值为全部训练集的20%;
S42:冻结编码器E的参数,解冻解码器D的参数,训练数据的长文本原文作为Input,目标摘要文本作为Label,文本数据通过文本预处理获得的字典由字符转换成数字编号,再转换成One-Hot向量,训练编解码器模型k个epoch,k取值为10;
S43:训练完成后,计算出训练集A所有样本的BLEU值;
S44:返回生成对抗网络优化步骤,重复N次直至训练完成。
2.根据权利要求1所述的一种自动文本摘要方法,其特征在于,所述文本预处理,包括以下步骤:
S11:获取训练集,每一条训练数据包括长文本原文和目标摘要文本;
S12:从数据库中提取出训练集的所有文本,进行数据预处理,以字符为基本单位,去除标点符号和出现次数小于min_count的字符,其中,min_count取值为32;
S13:按字符出现的顺序依次进行编号,建立字符和数字编号的映射字典,并将字典保存到本地文件中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创意信息技术股份有限公司,未经创意信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911047825.8/1.html,转载请声明来源钻瓜专利网。