[发明专利]文本摘要的生成方法、装置、电子设备及存储介质在审
申请号: | 202110158416.6 | 申请日: | 2021-02-04 |
公开(公告)号: | CN113761895A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 李清 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06F16/335;G06N3/04;G06N3/08 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 摘要 生成 方法 装置 电子设备 存储 介质 | ||
1.一种文本摘要的生成方法,其特征在于,包括:
获取目标文本;
基于所述目标文本和预先训练出的摘要抽取模型,生成所述目标文本对应的文本摘要;
其中,所述摘要抽取模型包括编码模块和解码模块;所述编码模块用于基于所述目标文本中所包含词语的词向量输出文本语义向量;所述解码模块用于基于所述编码模块输出的文本语义向量和前一时刻的注意力向量,输出当前时刻的摘要词向量;其中各时刻的注意力向量是基于对应时刻的注意力差距向量生成的,所述注意力差距向量用于描述对应时刻的注意力与之前对信息的注意力之间的差距。
2.根据权利要求1所述的方法,其特征在于,t时刻的注意力向量的生成方法包括:
基于所述编码模块输出的文本语义向量、所述解码模块输出的t时刻的摘要词向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量。
3.根据权利要求2所述的方法,其特征在于,基于所述编码模块输出的文本语义向量、所述解码模块输出的t时刻的摘要词向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量,包括:
基于激活函数对所述编码模块输出的文本语义向量、所述解码模块输出的t时刻的摘要词向量、t时刻的注意力覆盖向量、以及t时刻的注意力差距向量进行处理,得到中间隐层向量;其中,所述注意力覆盖向量表示t时刻之前各时刻的注意力向量的累积向量;
基于回归分类函数对中间隐层向量进行处理,得到t时刻的注意力向量。
4.根据权利要求1所述的方法,其特征在于,所述编码模块包括文本语义分析单元和文本结构分析单元:其中,所述文本语义分析单元,用于基于所述目标文本中所包含词语的词向量输出文本语义向量;所述文本结构分析单元,用于基于所述目标文本中所包含句子的句子结构特征向量,输出文本结构向量;所述解码模块具体用于:基于所述文本语义分析单元输出的文本语义向量、所述文本结构分析单元输出的文本结构向量和前一时刻的注意力向量,输出当前时刻的摘要词向量;
相应的,t时刻的注意力向量的生成方法包括:
基于所述文本语义分析单元输出的文本语义向量、所述解码模块输出的t时刻的摘要词向量、所述文本结构分析单元输出的文本结构向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量。
5.根据权利要求4所述的方法,其特征在于,所述文本结构分析单元包括:单向的长短期记忆网络LSTM层。
6.根据权利要求4所述的方法,其特征在于,所述句子结构特征向量包括:关键词关联度特征向量和/或句子实体因素特征向量;其中,
所述关键词关联度特征向量是根据对应句子中包含的所述目标文本的关键词的数量确定的;
所述句子实体因素特征向量是根据对应句子中包含的预设命名实体词的数量和对应句子的句子长度确定的。
7.根据权利要求4所述的方法,其特征在于,基于所述文本语义分析单元输出的文本语义向量、所述解码模块输出的t时刻的摘要词向量、所述文本结构分析单元输出的文本结构向量、以及t时刻的注意力差距向量,生成t时刻的注意力向量,包括:
基于激活函数对所述文本语义分析单元输出的文本语义向量、所述解码模块输出的t时刻的摘要词向量、t时刻的注意力覆盖向量、所述文本结构分析单元输出的文本结构向量、以及t时刻的注意力差距向量进行处理,得到中间隐层向量;其中,所述注意力覆盖向量表示t时刻之前各时刻的注意力向量的累积向量;
基于回归分类函数对中间隐层向量进行处理,得到t时刻的注意力向量。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述摘要抽取模型的训练方法包括:
将样本数据输入预先构建的摘要抽取模型;其中,所述样本数据包括:样本文本和所述样本文本对应的标准摘要文本;
根据所述摘要抽取模型输出的预测摘要文本和所述标准摘要文本计算损失函数;
根据损失函数的计算结果对所述摘要抽取模型的网络参数进行反向调整,直至达到训练结束条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110158416.6/1.html,转载请声明来源钻瓜专利网。