[发明专利]一种文本摘要的生成方法及装置在审
申请号: | 202111169246.8 | 申请日: | 2021-09-30 |
公开(公告)号: | CN113886568A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 司马华鹏;华冰涛;汤毅平;汪成;靳超超 | 申请(专利权)人: | 宿迁硅基智能科技有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/211;G06F40/216;G06K9/62 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 210012 江苏省宿*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 摘要 生成 方法 装置 | ||
1.一种文本摘要的生成方法,其特征在于,包括:
将目标文本划分为多个分句;
构建句子关系网络,所述句子关系网络包括所述多个分句中的全部节点分句,以及每一个所述节点分句与相应的邻接分句之间的对应关系,其中,所述节点分句对应至少一个句子相似度大于或者等于相似度阈值的所述邻接分句;
基于所述句子关系网络,获取每一个所述节点分句对应的子关系网络,所述子关系网络包括所述节点分句以及所述节点分句的至少一个邻接分句;
生成所述目标文本的文本摘要,所述文本摘要包括目标子关系网络中的全部分句,所述目标子关系网络是指与所述句子关系网络之间具有最高文档向量相似度的所述子关系网络。
2.根据权利要求1所述的方法,其特征在于,在所述将目标文本划分为多个分句之前还包括:
获取待处理文本;
将所述待处理文本划分为多个待处理分句;
获取每个所述待处理分句中的第一文本和第二文本,其中,所述第一文本与所述待处理文本所属的目标领域中的核心类别对应,所述第二文本与所述目标领域中的非核心类别对应;
根据每个所述待处理分句对应的分句向量,计算各所述待处理分句之间的句子相似度,所述待处理分句对应的分句向量由相应的所述第一文本和所述第二文本构成;
将所述多个待处理分句划分为多个所述目标文本,每个所述目标文本包括多个目标分句,所述多个目标分句之间的句子相似度大于或者等于预设句子相似度阈值。
3.根据权利要求2所述的方法,其特征在于,在将所述多个待处理分句划分为多个所述目标文本之后,还包括:
获取各所述目标分句在所述待处理文本中的位置;
按照各所述目标分句在所述待处理文本中的位置,将所述目标文本中的各所述目标分句排序。
4.根据权利要求1所述的方法,其特征在于,所述构建句子关系网络包括:
以每个所述分句作为中心分句,计算所述中心分句与所述多个分句中其它分句之间的句子相似度;
确定节点分句和所述节点分句的邻接分句,所述节点分句是指具有邻接分句的所述中心分句,所述邻接分句是指与所述节点分句的句子相似度大于或者等于句子相似度阈值的所述其它分句;
建立各所述节点分句与所述邻接分句之间的对应关系,得到所述句子关系网络。
5.根据权利要求1所述的方法,其特征在于,所述获取每一个所述节点分句对应的子关系网络包括:
根据预设的文本摘要所包含的句子数量N,获取每一个所述节点分句对应的全部子关系网络,其中,每个所述子关系网络包括所述节点分句和所述节点分句对应的N-1个所述邻接分句,N≥1。
6.根据权利要求5所述的方法,其特征在于,所述生成所述目标文本的文本摘要包括:
获取候选子关系网络,所述候选子关系网络是指中心度大于或者等于中心度阈值的所述子关系网络;
生成所述文本摘要,所述文本摘要包括所述目标子关系网络中的全部分句,所述目标子关系网络是指与所述句子关系网络之间具有最高文档向量相似度的所述候选子关系网络。
7.根据权利要求6所述的方法,其特征在于,计算所述子关系网络的中心度的步骤包括:
计算各所述子关系网络中每个所述分句对应的第一中心度,所述第一中心度根据所述分句的向前影响和向后影响计算获得;
计算每个所述子关系网络中各所述分句对应的中心度的加权平均值,得到每个所述子关系网络的中心度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宿迁硅基智能科技有限公司,未经宿迁硅基智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111169246.8/1.html,转载请声明来源钻瓜专利网。