[发明专利]文档处理方法、装置、电子设备和存储介质在审
申请号: | 202210459422.X | 申请日: | 2022-04-27 |
公开(公告)号: | CN114996441A | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 宋双永;何晓冬 | 申请(专利权)人: | 京东科技信息技术有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 单冠飞 |
地址: | 100176 北京市北京经济技*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 处理 方法 装置 电子设备 存储 介质 | ||
本申请提出一种文档处理方法、装置、电子设备和存储介质,其中,包括:通过获取待处理的文档集合中的多个文档,以确定多个文档各自对应的摘要,并在多个摘要中存在相同的摘要的情况下,将多个文档中摘要相同的目标文档聚类到一个文档类簇,再将文档类簇中的各个目标文档分别输入至摘要生成模型中,以确定目标文档的多个第一候选摘要,并从多个第一候选摘要中确定出目标文档的目标摘要,由此,在对文档处理过程中,将摘要相同的目标文档分别输入至摘要生成模型中,以从得到的多个第一候选摘要中确定出目标摘要,从而在生成每个文档摘要的同时,保证了文档摘要的互异性。
技术领域
本申请涉及计算机技术领域,尤其涉及一种文档处理方法、装置、电子设备和存储介质。
背景技术
随着文档数据的爆发式增长,如何快速地从文档数据中获取有效信息,这就需要文档摘要获取技术。相关技术中,在对多文档进行摘要提取时,通常是将多个文档整体处理,以产出一个摘要结果,该摘要结果中能够涵盖所有文档中包含的主旨意思。然而,在一些场景中,有时需要多个文档各自对应的互异的文档摘要。因此,如何得到多个文档各自对应的互异的文档摘要是目前亟需解决的技术问题。
发明内容
本申请提出一种文档处理方法、装置、电子设备和存储介质。
本申请第一方面实施例提出了一种文档处理方法,所述方法包括:获取待处理的文档集合,其中,所述文档集合包括多个文档;确定多个所述文档各自对应的摘要;在多个所述摘要中存在相同的摘要的情况下,根据多个所述文档各自对应的摘要,将所述多个文档中摘要相同的目标文档聚类到一个文档类簇;针对所述文档类簇中的各个目标文档,将所述目标文档分别输入至摘要生成模型中,以得到所述目标文档的多个第一候选摘要;从多个所述第一候选摘要中确定出所述目标文档的目标摘要,其中,所述目标摘要与所述文档集合中除所述目标文档之外的其他文档的摘要均不相同。
在本申请的一个实施例中,所述确定多个所述文档各自对应的摘要,包括:针对每个所述文档,对所述文档进行摘要抽取,以得到所述文档的摘要。
在本申请的一个实施例中,所述对所述文档进行摘要抽取,以得到所述文档的摘要,包括:在所述文档中的字符数大于或者等于预设字符阈值的情况下,提取所述文档中的关键语句,并根据所述关键语句生成所述文档的摘要;在所述文档中的字符数据小于预设字符阈值的情况下,提取所述文档中的关键词,根据所述关键词生成所述文档的摘要。
在本申请的一个实施例中,所述确定多个所述文档各自对应的摘要,包括:针对每个所述文档,将所述文档输入至所述摘要生成模型中,以通过所述摘要生成模型得到所述文档的摘要生成结果,其中,所述摘要生成结果包括多个第二候选摘要以及各个所述第二候选摘要对应的概率值;从所述多个所述第二候选摘要中,选择概率值最大的第二候选摘要作为所述文档的摘要。
在本申请的一个实施例中,所述摘要生成模型还输出各个所述第一候选摘要各自对应的概率值,所述从多个所述第一候选摘要中确定出所述目标文档的目标摘要,包括:按照概率值从大到小的顺序,对多个所述第一候选摘要进行排序,以得到排序结果;按照从前到后的顺序,依次遍历所述排序结果中的第一候选摘要,对于当前遍历到的第一候选摘要,在当前遍历到的第一候选摘要与所述文档集合中除所述目标文档之外的其他文档的摘要均不相同的情况下,将所述当前遍历到的第一候选摘要作为所述目标文档的目标摘要。
本申请提出一种文档处理方法,通过获取待处理的文档集合中的多个文档,以确定多个文档各自对应的摘要,并在多个摘要中存在相同的摘要的情况下,将多个文档中摘要相同的目标文档聚类到一个文档类簇,再将文档类簇中的各个目标文档分别输入至摘要生成模型中,以确定目标文档的多个第一候选摘要,并从多个第一候选摘要中确定出目标文档的目标摘要,由此,在对文档处理过程中,将摘要相同的目标文档分别输入至摘要生成模型中,以从得到的多个第一候选摘要中确定出目标摘要,从而在生成每个文档摘要的同时,保证了文档摘要的互异性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东科技信息技术有限公司,未经京东科技信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210459422.X/2.html,转载请声明来源钻瓜专利网。