[发明专利]文档处理方法、装置、电子设备和存储介质在审
申请号: | 202210459422.X | 申请日: | 2022-04-27 |
公开(公告)号: | CN114996441A | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 宋双永;何晓冬 | 申请(专利权)人: | 京东科技信息技术有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 单冠飞 |
地址: | 100176 北京市北京经济技*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 处理 方法 装置 电子设备 存储 介质 | ||
1.一种文档处理方法,其特征在于,所述方法包括:
获取待处理的文档集合,其中,所述文档集合包括多个文档;
确定多个所述文档各自对应的摘要;
在多个所述摘要中存在相同的摘要的情况下,根据多个所述文档各自对应的摘要,将所述多个文档中摘要相同的目标文档聚类到一个文档类簇;
针对所述文档类簇中的各个目标文档,将所述目标文档分别输入至摘要生成模型中,以得到所述目标文档的多个第一候选摘要;
从多个所述第一候选摘要中确定出所述目标文档的目标摘要,其中,所述目标摘要与所述文档集合中除所述目标文档之外的其他文档的摘要均不相同。
2.如权利要求1所述的方法,其特征在于,所述确定多个所述文档各自对应的摘要,包括:
针对每个所述文档,对所述文档进行摘要抽取,以得到所述文档的摘要。
3.如权利要求2所述的方法,其特征在于,所述对所述文档进行摘要抽取,以得到所述文档的摘要,包括:
在所述文档中的字符数大于或者等于预设字符阈值的情况下,提取所述文档中的关键语句,并根据所述关键语句生成所述文档的摘要;
在所述文档中的字符数据小于预设字符阈值的情况下,提取所述文档中的关键词,根据所述关键词生成所述文档的摘要。
4.如权利要求1所述的方法,其特征在于,所述确定多个所述文档各自对应的摘要,包括:
针对每个所述文档,将所述文档输入至所述摘要生成模型中,以通过所述摘要生成模型得到所述文档的摘要生成结果,其中,所述摘要生成结果包括多个第二候选摘要以及各个所述第二候选摘要对应的概率值;
从所述多个所述第二候选摘要中,选择概率值最大的第二候选摘要作为所述文档的摘要。
5.如权利要求1所述的方法,其特征在于,所述摘要生成模型还输出各个所述第一候选摘要各自对应的概率值,所述从多个所述第一候选摘要中确定出所述目标文档的目标摘要,包括:
按照概率值从大到小的顺序,对多个所述第一候选摘要进行排序,以得到排序结果;
按照从前到后的顺序,依次遍历所述排序结果中的第一候选摘要,对于当前遍历到的第一候选摘要,在当前遍历到的第一候选摘要与所述文档集合中除所述目标文档之外的其他文档的摘要均不相同的情况下,将所述当前遍历到的第一候选摘要作为所述目标文档的目标摘要。
6.一种文档处理装置,其特征在于,所述装置包括:
获取模块,用于获取待处理的文档集合,其中,所述文档集合包括多个文档;
第一确定模块,用于确定多个所述文档各自对应的摘要;
聚类模块,用于在多个所述摘要中存在相同的摘要的情况下,根据多个所述文档各自对应的摘要,将所述多个文档中摘要相同的目标文档聚类到一个文档类簇;
摘要生成模块,用于针对所述文档类簇中的各个目标文档,将所述目标文档分别输入至摘要生成模型中,以得到所述目标文档的多个第一候选摘要;
第二确定模块,用于从多个所述第一候选摘要中确定出所述目标文档的目标摘要,其中,所述目标摘要与所述文档集合中除所述目标文档之外的其他文档的摘要均不相同。
7.如权利要求6所述的装置,其特征在于,所述第一确定模块,包括:
抽取单元,用于针对每个所述文档,对所述文档进行摘要抽取,以得到所述文档的摘要。
8.如权利要求7所述的装置,其特征在于,所述抽取单元,具体用于:
在所述文档中的字符数大于或者等于预设字符阈值的情况下,提取所述文档中的关键语句,并根据所述关键语句生成所述文档的摘要;
在所述文档中的字符数据小于预设字符阈值的情况下,提取所述文档中的关键词,根据所述关键词生成所述文档的摘要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东科技信息技术有限公司,未经京东科技信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210459422.X/1.html,转载请声明来源钻瓜专利网。