[发明专利]用于生成式自动摘要生成的模型建立方法及摘要生成方法在审
申请号: | 202011305043.2 | 申请日: | 2020-11-20 |
公开(公告)号: | CN112507111A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 周玉 | 申请(专利权)人: | 北京中科凡语科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35 |
代理公司: | 北京庚致知识产权代理事务所(特殊普通合伙) 11807 | 代理人: | 韩德凯;李晓辉 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 生成 自动 摘要 模型 建立 方法 | ||
1.一种用于生成式自动摘要生成的模型建立方法,其特征在于,包括:
S1、对文档-摘要数据对集合中的摘要进行预处理,对文档-摘要数据对集合中文档进行向量化,生成多个向量化文档;
S2、对所述向量化文档进行聚类处理,生成预定数目的聚类类别,每个聚类类别包括一个文档簇;
S3、获取每个所述文档簇中的高频词,作为每个聚类类别的特征词汇表;以及
S4、将多个所述向量化文档以及多个预处理后的摘要输入至编码器解码器框架进行训练,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,至少基于该聚类类别的特征词汇表进行摘要词汇预测,训练收敛后即获得生成式自动摘要生成模型。
2.根据权利要求1所述的用于生成式自动摘要生成的模型建立方法,其特征在于,所述预定数目为超参数。
3.根据权利要求1所述的用于生成式自动摘要生成的模型建立方法,其特征在于,每个所述文档簇中包含多个向量化文档。
4.根据权利要求1所述的用于生成式自动摘要生成的模型建立方法,其特征在于,步骤S1中,所述预处理包括对摘要进行分词处理。
5.根据权利要求1所述的用于生成式自动摘要生成的模型建立方法,其特征在于,步骤S4中,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,基于该聚类类别的特征词汇表以及该文档的原文词汇表进行摘要词汇预测。
6.一种生成式自动摘要生成方法,使用权利要求1至5中任一项所述的方法建立的生成式自动摘要生成模型进行自动摘要生成,其特征在于,包括:
SS1、判断目标文档隶属的类别;
SS2、使用目标文档隶属的类别的特征词汇表以及该目标文档的原文词汇表作为约束词汇表;以及
SS3、使用生成式自动摘要生成模型的解码器对所述目标文档的词汇进行搜索时,基于所述约束词汇表对搜索空间进行约束,生成所述目标文档的摘要。
7.根据权利要求6所述的生成式自动摘要生成方法,其特征在于,SS1、判断目标文档隶属的类别,包括:
SS11、对目标文档进行向量化处理,获得向量化目标文档;以及
SS12、获取所述向量化目标文档与各个文档簇之间的距离,将与所述向量化目标文档距离最近的文档簇的类别作为目标文档隶属的类别。
8.一种用于生成式自动摘要生成的模型建立装置,其特征在于,包括:
预处理模块1001,所述预处理模块1001对文档-摘要数据对集合中的摘要进行预处理;
向量化模块1002,所述向量化模块1002对文档-摘要数据对集合中文档进行向量化,生成多个向量化文档;
聚类处理模块1003,所述聚类处理模块1003对所述向量化文档进行聚类处理,生成预定数目的聚类类别,每个聚类类别包括一个文档簇;
特征词汇表生成模块1004,特征词汇表生成模块1004获取每个所述文档簇中的高频词,作为每个聚类类别的特征词汇表;以及
编码器解码器框架模块1005,将多个所述向量化文档以及多个预处理后的摘要输入至所述编码器解码器框架模块1005进行训练,在训练过程中,基于文档所属的聚类类别确定该聚类类别的特征词汇表,至少基于该聚类类别的特征词汇表进行摘要词汇预测,训练收敛后即获得生成式自动摘要生成模型。
9.一种电子设备,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行权利要求1至7中任一项所述的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科凡语科技有限公司,未经北京中科凡语科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011305043.2/1.html,转载请声明来源钻瓜专利网。