[发明专利]一种文本摘要的提取方法、装置、终端设备和存储介质在审

申请号：	202111258362.7	申请日：	2021-10-27
公开（公告）号：	CN113962221A	公开（公告）日：	2022-01-21
发明（设计）人：	宋威	申请（专利权）人：	平安国际智慧城市科技股份有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F40/216;G06F40/30
代理公司：	深圳中一联合知识产权代理有限公司 44414	代理人：	姚泽鑫
地址：	518000 广东省深圳市前海深港合***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本摘要提取方法装置终端设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请适用于人工智能技术领域，提供一种文本摘要的提取方法、装置、终端设备和存储介质。该方法包括：获取待处理文本；分别提取所述待处理文本包含的各个句子的句向量和词向量；采用遍历的方式计算所述各个句子中任意两两句子之间的相似度，其中，所述任意两两句子之间的相似度根据所述任意两两句子的句向量和词向量计算获得；根据所述任意两两句子之间的相似度构建有向带权图；基于目标迭代公式以及所述有向带权图，计算得到每个所述句子的排名值；将所述各个句子中所述排名值小于指定数值的目标句子确定为所述待处理文本的摘要。采用该方法能够提高文本摘要提取的准确率。

技术领域

本申请涉及人工智能技术领域，提供一种文本摘要的提取方法、装置、终端设备和存储介质。

背景技术

文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要，目前通常采用TextRank算法进行文本摘要的提取。TextRank是一种用于文本的基于图的排序算法，通过把文本分割成若干组成句子，构建有向带权图，用句子之间的相似度作为边的权重，通过循环迭代计算句子的TextRank值，最后抽取排名高的句子组合成文本摘要。然而，采用TextRank算法提取文本摘要时仅仅采用字符的相似度来计算句子的相似度，却忽略了句子中的语义信息以及句子中每个词在全局中的重要程度信息，因此计算得到的句子的相似度是不准确的，进而导致在循环迭代时提取到的文本摘要的准确率较低。

发明内容

有鉴于此，本申请提出一种文本摘要的提取方法、装置、终端设备和存储介质，能够提高文本摘要提取的准确率。

第一方面，本申请实施例提供了一种文本摘要的提取方法，包括：

获取待处理文本；

分别提取所述待处理文本包含的各个句子的句向量和词向量；

采用遍历的方式计算所述各个句子中任意两两句子之间的相似度，其中，所述任意两两句子之间的相似度根据所述任意两两句子的句向量和词向量计算获得；

根据所述任意两两句子之间的相似度构建有向带权图；

基于目标迭代公式以及所述有向带权图，计算得到每个所述句子的排名值；

将所述各个句子中所述排名值小于指定数值的目标句子确定为所述待处理文本的摘要。

本申请实施例在现有的采用TextRank算法提取文本摘要的基础上进行了改进，在计算句子相似度时同时考虑句子的词向量和句向量，将句子的语义特征以及句子中每个词的特征进行融合计算，能够提高计算得到的句子相似度的准确率，从而提高后续采用算法循环迭代提取文本摘要的准确率。

在本申请的一个实施例中，所述采用遍历的方式计算所述各个句子中任意两两句子之间的相似度，可以包括：

根据第一句子的词向量和第二句子的词向量，计算得到第一句向量相似度，其中，所述第一句子和所述第二句子为所述各个句子中的任意两个句子；