[发明专利]一种摘要生成方法及相关装置在审
申请号: | 202210789204.2 | 申请日: | 2022-07-06 |
公开(公告)号: | CN115034194A | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 朱菁;张大千;杨雯雯;毛瑞彬;李霁;赖文琛;张俊;杨建明 | 申请(专利权)人: | 深圳证券信息有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06N3/04;G06N3/08;G06V10/82;G06V30/42 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王欢 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 摘要 生成 方法 相关 装置 | ||
1.一种摘要生成方法,其特征在于,包括:
获取目标文档;
根据所述目标文档得到文本向量、文本坐标向量、图像向量、图像坐标向量、表格向量和表格内文本坐标向量,所述文本向量为所述目标文档中文本部分的文本片段对应的向量,所述文本坐标向量为所述目标文档中文本部分对应的坐标的向量,所述图像向量为所述目标文档中图像部分对应的向量,所述图像坐标向量为所述目标文档中图像部分对应的坐标的向量,所述表格向量为所述目标文档中表格对应的向量,所述表格内文本坐标向量为所述目标文档中表格内文本对应的坐标的向量;
根据所述文本坐标向量、所述图像坐标向量和所述表格内文本坐标向量得到布局向量;
将所述文本向量、所述图像向量和所述表格向量进行拼接得到第一向量;
将所述第一向量和所述布局向量对应相加得到第二向量;
将所述第二向量输入至多模态神经网络进行微调得到目标向量;
将所述目标向量输入至分类函数得到目标信息;
将所述目标信息填充至目标模板得到第一摘要,所述目标模板为预先设置好的与所述目标文档对应的模板。
2.根据权利要求1所述的摘要生成方法,其特征在于,将所述目标信息填充至目标模板得到第一摘要之后,所述方法还包括:
根据所述目标文档和提示得到目标片段,所述提示为用户根据所述目标文档定义的内容;
将所述第一摘要和所述目标片段输入至生成式神经网络得到第二摘要。
3.根据权利要求1所述的摘要生成方法,其特征在于,根据所述目标文档得到文本向量、文本坐标向量、图像向量、图像坐标向量、表格向量和表格内文本坐标向量,包括:
根据所述目标文档得到文本信息和非文本信息,所述文本信息包括文本内容信息和文本坐标信息,所述非文本信息包括图像信息和表格信息;
将所述文本内容信息输入至语言模型得到所述文本向量;
将所述非文本信息输入至目标检测模型得到图像特征图、图像坐标信息、表格结构和表格内文本坐标信息;
将所述文本坐标信息、所述图像坐标信息和所述表格内文本坐标信息通过坐标位置编码得到所述文本坐标向量、所述图像坐标向量和所述表格内文本坐标向量;
通过所述图像特征图得到所述图像向量;
将所述表格结构输入至表格结构识别模型得到所述表格向量。
4.根据权利要求2所述的摘要生成方法,其特征在于,根据所述目标文档和提示得到目标片段,包括:
根据所述目标文档和所述提示预测所述目标文档的每一段落中所述目标片段的起始位置概率和结束位置概率;
判断所述起始位置概率的最大值与所述结束位置概率的最大值之和是否小于预设阈值;
若否,则将所述起始位置概率的最大值对应的位置与所述结束位置概率的最大值对应的位置之间的文本确定为所述目标片段。
5.根据权利要求2所述的摘要生成方法,其特征在于,将所述第一摘要和所述目标片段输入至生成式神经网络得到第二摘要,包括:
将即将生成的所述第二摘要的第i个位置确定为目标位置,i为1,2,3,...,k-1,其中k为所述第二摘要的位置个数,所述目标位置为即将生成内容的文本片段的位置;
将所述第一摘要和所述目标片段输入至所述生成式神经网络得到目标位置的第一概率,所述第一概率为所述第一摘要和所述目标片段中在所述目标位置出现的概率最大的文本的概率;
获取所述目标位置的第二概率,所述第二概率为词汇表中在所述目标位置出现的概率最大的文本的概率,所述词汇表为预先训练好的词库;
将所述第一概率和所述第二概率两者中较大的概率对应的文本确定为与所述目标位置对应的文本片段的内容;
将第i+1个位置确定为所述目标位置,返回执行所述将所述第一摘要和所述目标片段输入至所述生成式神经网络得到目标位置的第一概率,直到确定k个位置对应的文本片段的内容以得到所述第二摘要为止。
6.根据权利要求1所述的摘要生成方法,其特征在于,将所述目标信息填充至目标模板得到第一摘要之前,所述方法还包括:
根据文档的标题进行分类得到预设模板,所述预设模板包括所述目标模板。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳证券信息有限公司,未经深圳证券信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210789204.2/1.html,转载请声明来源钻瓜专利网。