[发明专利]公文摘要提取方法、装置、设备及计算机可读存储介质在审
申请号: | 202010100140.1 | 申请日: | 2020-02-18 |
公开(公告)号: | CN111460131A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 郑立颖;徐亮;阮晓雯 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/258;G06K9/62 |
代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 何姣 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 公文 摘要 提取 方法 装置 设备 计算机 可读 存储 介质 | ||
1.一种公文摘要提取方法,其特征在于,包括:
获取语句集和预设的公文摘要抽取模型,其中,所述语句集包括根据待提取的公文文本确定的若干语句,所述公文摘要抽取模型包括第一摘要提取层、第二摘要提取层和摘要融合提取层;
调用预设的第一线程基于所述第一摘要提取层从所述语句集中提取标题语句和关键语句,并将所述标题语句和关键语句作为第一候选摘要集;以及
并发调用预设的第二线程基于所述第二摘要提取层计算所述语句集中每个语句的重要程度值,并根据每个语句的重要程度值确定第二候选摘要集;
基于所述摘要融合提取层,根据所述第一候选摘要集和第二候选摘要集,确定所述公文文本的摘要结果集。
2.根据权利要求1所述的公文摘要提取方法,其特征在于,所述调用预设的第一线程基于所述第一摘要提取层从所述语句集中提取标题语句和关键语句,包括:
调用预设的第一线程基于所述第一摘要提取层中的正则表达式从所述语句集中提取标题语句;以及
从所述第一摘要提取层中获取所述语句集的公文类型标签对应的关键词集合,并从所述语句集中提取包含所述关键词集合中的关键词的关键语句。
3.根据权利要求1所述的公文摘要提取方法,其特征在于,所述并发调用预设的第二线程基于所述第二摘要提取层计算所述语句集中每个语句的重要程度值,包括:
并发调用预设的第二线程根据所述语句集中每个语句的位置编号,计算每个语句的位置表征指数;以及
从所述语句集中获取主标题语句,并计算所述语句集中每个语句与所述主标题语句之间的相似度;
根据每个语句与所述主标题语句之间的相似度和每个语句的位置表征指数,确定所述语句集中每个语句的重要程度值。
4.根据权利要求3所述的公文摘要提取方法,其特征在于,所述根据所述语句集中每个语句的位置编号,计算每个语句的位置表征指数,包括:
根据所述语句集中每个语句的位置编号,确定最大位置编号,并计算所述语句集中每个语句的位置编号与所述最大位置编号的差值绝对值;
根据每个所述差值绝对值和最大位置编号,确定所述语句集中每个语句的权重系数;
根据所述语句集中每个语句的位置编号与所述最大位置编号的差值绝对值以及每个语句的权重系数,确定每个语句的位置表征指数。
5.根据权利要求3所述的公文摘要提取方法,其特征在于,所述计算所述语句集中每个语句与所述主标题语句之间的相似度,包括:
确定所述语句集中每个语句各自对应的文字个数,并确定所述主标题语句的标题字数;
统计每个语句和所述主标题语句中相同文字的个数,得到每个语句各自对应的相同文字个数;
根据所述标题字数以及每个语句各自对应的所述文字个数和所述相同文字个数,计算所述语句集中每个语句与所述主标题语句之间的相似度。
6.根据权利要求3所述的公文摘要提取方法,其特征在于,所述根据每个语句与所述主标题语句之间的相似度和每个语句的位置表征指数,确定所述语句集中每个语句的重要程度值,包括:
获取预设的第一权重系数和第二权重系数;
根据所述第一权重系数和每个语句的位置表征指数,确定每个语句的第一重要程度值;
根据所述第二权重系数以及每个语句与所述主标题语句之间的相似度,确定每个语句的第二重要程度值;
根据每个语句的所述第一重要程度值和第二重要程度值,确定所述语句集中每个语句的重要程度值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010100140.1/1.html,转载请声明来源钻瓜专利网。