[发明专利]一种生成式摘要模型构建、提取生成式摘要方法及系统有效
申请号: | 202010714359.0 | 申请日: | 2020-07-21 |
公开(公告)号: | CN111966820B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 蔡晓妍;石锴乐;杨黎斌;戴航;刘森 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/211;G06F40/284;G06N3/0464;G06N3/08 |
代理公司: | 西安恒泰知识产权代理事务所 61216 | 代理人: | 孙雅静 |
地址: | 710068 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生成 摘要 模型 构建 提取 方法 系统 | ||
1.一种生成式摘要模型构建方法,其特征在于,包括以下步骤:
S1,获取多段文本,获得文本数据集;所述的每段文本包括多个句子,所述每段文本的每个句子包括多个词;
获取每段文本对应的摘要,获得摘要文本集;所述的每段摘要文本包括多个句子,所述每段摘要文本的每个句子包括多个词;
S2,对文本数据集和摘要文本集分别进行嵌入表示,获得训练集,所述训练集为文本数据集中每段文本中每个句子的每个词的嵌入表示和摘要文本集中每段摘要文本的嵌入表示;
所述每段文本中所有词的嵌入表示为词向量集,其中,输入数据为文本数据集中的全部词向量集,标签为所有摘要文本的嵌入表示;
S3,将所述的输入数据输入并训练编码-解码神经网络,以获得生成式摘要模型;
所述的编码-解码神经网络包括依次设置的词编码网络、句子编码网络、解码网络;
所述的词编码网络包括双向GRU编码器,用于将所述训练集输入词编码网络,得到所有文本中每段文本的句子向量集;
所述的句子编码网络包括双向GRU编码器,用于将词编码网络输出的所有文本中每段文本的句子向量集输入句子编码网络,得到所有文本中每段文本的文档向量;
所述的解码网络包括依次串联的句子重要性排序模块、GRU句子层解码器、GRU词层解码器以及解码生成模块;
其中词编码网络的输出端连接句子重要性排序模块的输入端,句子编码网络的输出端连接GRU句子层解码器的输入端,GRU句子层解码器的输出端连接句子重要性排序模块的输入端,句子重要性排序模块的输出端和GRU 句子层解码器的输出端连接解码生成模块的输入端;
其中句子重要性排序模块采用结合HITS注意力的重要性排序方法,解码生成模块采用解码生成算法;
S3所述的重要性排序方法包括:
步骤A,获得句子向量集和词向量集,构建双向图G,所述的双向图G包括n个句子向量节点、m个词向量节点以及任意句子向量节点和任意词向量节点相连的边,所有边构成边向量集;
步骤B,根据边向量集获得所有句子向量和所有词向量的关系矩阵L,L=(lij)n×m;
其中lij表示任意句子向量和任意词向量的关系,i∈[1,2,…,n],j∈[1,2,…,m];
步骤C,根据式(1)计算句子得分矩阵P=[Pi],其中Pi表示第i个句子向量的句子得分;
P=eigenvector(LLT); (1)
其中eigenvector表示矩阵的主特征向量;
所述S3的训练步骤具体包括:
S31,所述词向量集通过S3所述的词编码网络,得到句子向量集;
S32,将S31得到的句子向量集输入S3所述的句子编码网络,得到文档向量;
S33,将所述词向量集、S31得到的句子向量集和S32得到的文档向量输入解码网络,得到生成句子向量集、生成词向量集和收敛时刻的句子重要性排序;
所述的S33具体包括:
S331,将所述词向量集和S31得到的句子向量集输入句子重要性排序模块,利用重要性排序方法,计算得到第1时刻的句子得分矩阵P1,P1=[Pi1];
其中,i表示第i个句子向量,Pi1表示第1时刻第i个句子向量的句子得分;
S332,将S331得到的P1通过式(2)计算第1时刻句子向量的注意力权重,并将第1时刻句子向量的注意力权重由大到小进行排序获得第1时刻句子重要性排序;
αi’=μβi’; (2)
其中,μ是权衡分散机制和KL散度的权重,βi’是第1时刻分散机制的基础值,表示第1时刻的第i个句子的句子得分,表示第1时刻第k个句子的句子得分;
S333,将S32得到的文档向量和S332得到的第t-1时刻句子重要性排序输入GRU句子层解码器,得到GRU句子层解码器第t-1时刻输出的生成句子向量,t是大于1的自然数;
S334,将t-1时刻输出的生成句子向量加入t时刻的句子向量集,并和词向量集再次输入句子重要性排序模块,利用重要性排序方法,计算第t时刻的句子得分矩阵Pt,Pt=[Pit];
其中,Pit表示第t时刻第i个句子向量的句子得分;
S335,将S334得到的Pt通过式(3)计算第t时刻句子向量的注意力权重,并将第t时刻句子向量的注意力权重由大到小进行排序获得第t时刻句子重要性排序;
αi=μβi+(1-μ)γi·1; (3)
其中
其中,μ是权衡分散机制和KL散度的权重,βi是分散机制的基础值,γi是KL散度基础值,表示t时刻的第i个句子的句子得分,表示t-1时刻的第i个句子的句子得分,表示t时刻第k个句子的句子得分,表示t-1时刻第k个句子的句子得分;
S336,将S335得到的第t时刻句子重要性排序输入解码网络,并与所述文档向量计算得到解码网络第t时刻输出的生成句子向量;
S337,t=t+1,重复执行步骤S333至S337,直至句子得分矩阵Pt收敛,所有时刻的生成句子向量作为生成句子向量集,得到收敛时刻的句子重要性排序;
S338,将S337得到的生成句子向量集进行词解码,得到生成词向量集;
S34,根据S33得到的生成句子向量集、生成词向量集和收敛时刻的句子重要性排序,利用解码生成算法得到生成摘要文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010714359.0/1.html,转载请声明来源钻瓜专利网。