[发明专利]一种结合抽取式和生成式方法的摘要重新排序方法及系统在审
申请号: | 202211642538.3 | 申请日: | 2022-12-20 |
公开(公告)号: | CN116010591A | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 蔡晓东;曹堪斌 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06N3/047;G06N3/08 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 孟仕杰 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 抽取 生成 方法 摘要 重新 排序 系统 | ||
1.一种结合抽取式和生成式方法的摘要重新排序方法,其特征在于,包括以下步骤:
S1,获取第一文章,所述第一文章中包含多个第一句子和多个原始摘要句子;
S2,提取各个所述第一句子,得到多个第一提取句子,所述第一提取句子为第一文章中具有标志性的句子;
S3,根据各个所述第一提取句子和各个所述原始摘要句子,确定每个所述第一提取句子对应的第一摘要句子,所述第一摘要句子为根据所述第一提取句子预测得到的摘要;
S4,根据各个所述第一摘要句子,确定每个所述第一摘要句子对应的token,所述token为一个字或一个词;
S5,根据各个所述token,确定第一目标摘要。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取每个所述第一提取句子对应的上下文,以及每个所述原始摘要句子对应的上下文;
所述根据各个所述第一提取句子和各个所述原始摘要句子,确定每个所述第一提取句子对应的第一摘要句子,包括:
根据各个所述第一提取句子、每个所述第一提取句子对应的上下文,以及每个所述原始摘要句子对应的上下文,通过第一公式,确定每个所述第一提取句子对应的第一摘要句子,其中,所述第一公式为:
其中,|Y|表示第一提取句子的总数,argmax(x)表示搜索函数,其中,x表示搜索函数的输入,表示搜索函数的输出结果,Ej表示第j个第一提取句子,E<j表示第j个第一提取句子对应的上下文,Y<j表示第j个原始摘要句子对应的上下文,X表示第一文章,Yj表示第j个第一提取句子对应的第一摘要句子,P(Yj|Ej,E<j,Y<j,X)表示搜索函数输出结果用序列概率的形式表示。
3.根据权利要求2所述的方法,其特征在于,还包括:
将各个所述第一摘要句子生成第一序列,将各个所述第一提取句子生成第二序列;
所述根据各个所述第一摘要句子,确定每个所述第一摘要句子对应的token,包括:
根据所述第一序列和所述第二序列,通过第二公式,确定每个所述第一摘要句子对应的token,其中,第二公式为:
其中,表示输出结果用序列概率的形式表示,Y′k表示第k个token,Y′<k表示第k个token之前的token,GX′表示第一序列,表示第二序列,X′表示第一摘要句子。
4.根据权利要求3所述的方法,其特征在于,所述根据各个所述token,确定第一目标摘要,包括:
根据各个所述token,通过第三公式,确定每个所述token对应的权重,其中,所述第三公式为:
其中,|Y′|表示token的总数,wj表示权重,其中,若Y′k包含于第一序列和第二序列中,则wj=γ,γ表示网络参数,若Y′k不包含于第一序列和第二序列中,则wj=1,Loss表示重写器的损失函数;
根据各个所述权重和各个所述token,确定所述第一目标摘要。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211642538.3/1.html,转载请声明来源钻瓜专利网。