[发明专利]一种结合抽取式和生成式方法的摘要重新排序方法及系统在审
申请号: | 202211642538.3 | 申请日: | 2022-12-20 |
公开(公告)号: | CN116010591A | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 蔡晓东;曹堪斌 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06N3/047;G06N3/08 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 孟仕杰 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 抽取 生成 方法 摘要 重新 排序 系统 | ||
本发明涉及一种结合抽取式和生成式方法的摘要重新排序方法及系统,包括以下步骤:获取第一文章,第一文章中包含多个第一句子和多个原始摘要句子;提取各个第一句子,得到多个第一提取句子,第一提取句子为第一文章中具有标志性的句子;根据各个第一提取句子和各个原始摘要句子,确定每个第一提取句子对应的第一摘要句子,第一摘要句子为根据第一提取句子预测得到的摘要;根据各个第一摘要句子,确定每个第一摘要句子对应的token,token为一个字或一个词根据各个token,确定第一目标摘要。本申请实现了生成的摘要准确率更高。
背景技术
文本摘要领域分为抽取式方法和生成式方法两大类,这两种方法各有优缺点,抽取式方法是通过从文档中提取重要的文本片段并将它们连接起来形成摘要,与生成式摘要相比,它在内容选择性和真实性方面具有优势,然而抽取的句子可能包含不相关或冗余信息,由于没有考虑上下文关系,因此可能具有低连贯性。生成式方法使用条件语言模型生成摘要,删除了不相关的信息,但是生成的摘要可能读不懂,偏离原文语义。
因此,无论是用抽取式方法还是生成式方法,生成的摘要准确率都较低。
发明内容
为了提高生成摘要的准确率,本发明提供了一种结合抽取式和生成式方法的摘要重新排序方法及系统。
第一方面,为了解决上述技术问题,本发明提供了一种结合抽取式和生成式方法的摘要重新排序方法,包括以下步骤:
S1,获取第一文章,第一文章中包含多个第一句子和多个原始摘要句子;
S2,提取各个第一句子,得到多个第一提取句子,第一提取句子为第一文章中具有标志性的句子;
S3,根据各个第一提取句子和各个原始摘要句子,确定每个第一提取句子对应的第一摘要句子,第一摘要句子为根据第一提取句子预测得到的摘要;
S4,根据各个第一摘要句子,确定每个第一摘要句子对应的token,token为一个字或一个词;
S5,根据各个token,确定第一目标摘要。
本发明提供的一种结合抽取式和生成式方法的摘要重新排序方法的有益效果是:通过抽取式方法,从第一文章中获取多个第一提取句子和原始摘要句子,然后通过各个第一提取句子和原始摘要句子,确定第一摘要句子,再通过生成式方法,将第一摘要句子生成token,并从token中确定第一目标摘要句子,本申请通过抽取式方法和生成式方法相结合,对抽取生成的第一摘要句子进行修改,修改为token,以提高摘要生成的准确率,并从token中筛选出准确性更高的第一目标摘要,进一步提升了摘要生成的准确性,提高了生成的摘要的准确率。
在上述技术方案的基础上,本发明的一种结合抽取式和生成式方法的摘要重新排序方法还可以做如下改进。
进一步,该方法还包括:
获取每个第一提取句子对应的上下文,以及每个原始摘要句子对应的上下文;
根据各个第一提取句子和各个原始摘要句子,确定每个第一提取句子对应的第一摘要句子,包括:
根据各个第一提取句子、每个第一提取句子对应的上下文,以及每个原始摘要句子对应的上下文,通过第一公式,确定每个第一提取句子对应的第一摘要句子,其中,第一公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211642538.3/2.html,转载请声明来源钻瓜专利网。