[发明专利]一种文本总结方法、电子设备及存储介质有效
申请号: | 202110686988.1 | 申请日: | 2021-06-21 |
公开(公告)号: | CN113312897B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 李晓鹏;孙浩然;邹杰 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/216;G06N7/00;G06N20/00 |
代理公司: | 上海元好知识产权代理有限公司 31323 | 代理人: | 张双红;张静洁 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 总结 方法 电子设备 存储 介质 | ||
本发明公开了一种文本总结方法、电子设备及存储介质,所述方法包括:获取文本中各个句子自身的特征信息以及各个句子之间的相似程度信息;对所述特征信息和所述相似程度信息进行编码,得到核矩阵;对所述核矩阵进行若干次行列式采样,得到采样结果:对所述采样结果进行统计计算,得到最概然结果,与所述最概然结果对应的句子为所述文本的总结结果。本发明能够降低行列式采样到计算复杂度,可以显著提高基于行列式采样的机器学习的运算效率。
技术领域
本发明涉及文本总结方法领域,特别涉及一种文本总结方法、电子设备及存储介质。
背景技术
行列式采样在量子化学计算和机器学习等任务中有重要应用。因其中涉及到的基本的泡利不相容原理,行列式采样生成的数据样本有天然的多样性,这一点对机器学习中的文本总结和推荐系统等任务都具有重要意义。但是,此前行列式采样的算法的计算效率不高,计算复杂度限制了相关应用的推广。尤其在文本的语义总结中,传统的行列式采样算法的低效性极大的限制了能够进行总结的文本的长度。
目前的行列式采样算法有两种,一种是科学计算中经常采用的马尔可夫链的方法,一种是机器学习任务中通常采用的determinantal-point-process(DPP)的算法。这些方法应用于自动化文本总结,均存在比较显著的问题。
具体的,马尔可夫链的算法应用于文本总结存在显著的任务依赖的问题,采样中的自关联问题会导致算法可能在某些文本总结的任务上失效,并且这种失效不可预判;而DPP算法在长文本总结的问题应用中,需要耗费大量的计算时间进行机器学习训练,而且随着文本长度的增加呈高阶的多项式增长。这就导致了行列式采样的模型在文本总结的机器学习应用中存在显著的局限性。
发明内容
本发明的目的在于提供一种文本总结方法、电子设备及存储介质,以解决目前的行列式采样的模型在文本总结的机器学习应用中存在显著的局限性的问题。
为了解决以上问题,本发明通过以下技术方案实现:
一种文本总结方法,包括:
步骤S1、获取文本中各个句子自身的特征信息以及各个句子之间的相似程度信息;
步骤S2、对所述特征信息和所述相似程度信息进行编码,得到核矩阵;
步骤S3、对所述核矩阵进行若干次行列式采样,得到采样结果;
步骤S4、对所述采样结果进行统计计算,得到最概然结果,与所述最概然结果对应的句子为所述文本的总结结果。
可选地,所述特征信息包括文本中每个句子的长度特征和位置特征。
可选地,所述特征信息中的每一特征对应一可调参数。
可选地,所述步骤S3包括:
所述核矩阵为L×N矩阵U,且满足UTU=I,I为单位矩阵;
对所述L×N矩阵U进行行列式抽样处理,抽样一次得到的样本为N维向量要求每个样本xi∈[1,L],且N维向量服从概率分布其中向量其中,表示抽样一次得到向量的概率;表示矩阵U中行指标为列指标为的部分所构成的子矩阵的行列式的值。
可选地,所述步骤S3还包括:步骤S3.1、将所述向量中的N个元素进行一次随机排列,生成一随机向量,记为向量;
步骤S3.2、从k=1开始迭代N次,直至k=N,N次迭代均按照以下条件概率生成目标向量
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110686988.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种服装加工中具有压平的裁剪装置
- 下一篇:一种水稻人造育秧基质的制备方法