[发明专利]一种文本总结方法、电子设备及存储介质有效

申请号：	202110686988.1	申请日：	2021-06-21
公开（公告）号：	CN113312897B	公开（公告）日：	2022-09-30
发明（设计）人：	李晓鹏;孙浩然;邹杰	申请（专利权）人：	复旦大学
主分类号：	G06F40/211	分类号：	G06F40/211;G06F40/216;G06N7/00;G06N20/00
代理公司：	上海元好知识产权代理有限公司 31323	代理人：	张双红;张静洁
地址：	200433 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本总结方法电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种文本总结方法、电子设备及存储介质，所述方法包括：获取文本中各个句子自身的特征信息以及各个句子之间的相似程度信息；对所述特征信息和所述相似程度信息进行编码，得到核矩阵；对所述核矩阵进行若干次行列式采样，得到采样结果：对所述采样结果进行统计计算，得到最概然结果，与所述最概然结果对应的句子为所述文本的总结结果。本发明能够降低行列式采样到计算复杂度，可以显著提高基于行列式采样的机器学习的运算效率。

技术领域

本发明涉及文本总结方法领域，特别涉及一种文本总结方法、电子设备及存储介质。

背景技术

行列式采样在量子化学计算和机器学习等任务中有重要应用。因其中涉及到的基本的泡利不相容原理，行列式采样生成的数据样本有天然的多样性，这一点对机器学习中的文本总结和推荐系统等任务都具有重要意义。但是，此前行列式采样的算法的计算效率不高，计算复杂度限制了相关应用的推广。尤其在文本的语义总结中，传统的行列式采样算法的低效性极大的限制了能够进行总结的文本的长度。

目前的行列式采样算法有两种，一种是科学计算中经常采用的马尔可夫链的方法，一种是机器学习任务中通常采用的determinantal-point-process(DPP)的算法。这些方法应用于自动化文本总结，均存在比较显著的问题。

具体的，马尔可夫链的算法应用于文本总结存在显著的任务依赖的问题，采样中的自关联问题会导致算法可能在某些文本总结的任务上失效，并且这种失效不可预判；而DPP算法在长文本总结的问题应用中，需要耗费大量的计算时间进行机器学习训练，而且随着文本长度的增加呈高阶的多项式增长。这就导致了行列式采样的模型在文本总结的机器学习应用中存在显著的局限性。

发明内容

本发明的目的在于提供一种文本总结方法、电子设备及存储介质，以解决目前的行列式采样的模型在文本总结的机器学习应用中存在显著的局限性的问题。

为了解决以上问题，本发明通过以下技术方案实现：

一种文本总结方法，包括：

步骤S1、获取文本中各个句子自身的特征信息以及各个句子之间的相似程度信息；

步骤S2、对所述特征信息和所述相似程度信息进行编码，得到核矩阵；

步骤S3、对所述核矩阵进行若干次行列式采样，得到采样结果；

步骤S4、对所述采样结果进行统计计算，得到最概然结果，与所述最概然结果对应的句子为所述文本的总结结果。

可选地，所述特征信息包括文本中每个句子的长度特征和位置特征。

可选地，所述特征信息中的每一特征对应一可调参数。

可选地，所述步骤S3包括：

所述核矩阵为L×N矩阵U，且满足U^TU＝I，I为单位矩阵；