[发明专利]一种基于异构图的单语言主题摘要生成方法在审
申请号: | 202210416073.3 | 申请日: | 2022-04-20 |
公开(公告)号: | CN114860920A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 云静;郑博飞;焦磊;袁静姝;刘利民 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/211;G06F40/284;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 010080 内蒙古自治区呼*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 构图 语言 主题 摘要 生成 方法 | ||
1.一种基于异构图的单语言主题摘要生成方法,其特征在于,包括如下步骤:
步骤1,从网络爬取源语言的摘要数据集,并进行分词、分句和打标签操作,所述源语言即为需要生成摘要的数据集的语种;
步骤2,使用对抗训练学习一个从源语言到目标语言的空间线性映射,得到源语言与目标语言在同一个共享向量空间的词向量,对分词、分句和打标签操作得到的数据进行预处理,得到包含单词节点、句子节点和边特征的向量,其中所述目标语言为一个大型语种;
步骤3,使用图注意力网络,将包含单词节点、句子节点和边特征的向量进行信息聚合,不断更新单词节点与句子节点,得到信息聚合之后的句子节点;
步骤4,将信息聚合之后的句子节点进行节点分类,并以交叉熵损失作为训练目标,根据句子的分数排序,筛选适合作为摘要的句子节点。
2.根据权利要求1所述基于异构图的单语言主题摘要生成方法,其特征在于,所述步骤2,对分词、分句和打标签操作得到的数据,利用所述源语言的词向量进行词嵌入操作,并将词嵌入整合获得句子嵌入,将词嵌入作为单词节点,句子嵌入作为句子节点,词嵌入与句子嵌入之间的关系作为边特征,构造异构图。
3.根据权利要求2所述基于异构图的单语言主题摘要生成方法,其特征在于,所述对抗训练采用GAN网络,其中用来对抗的数据集是一一对应的,所述空间线性映射的映射函数如下所示:
其中,X表示源语言的词嵌入,Y表示与X对应的目标语言的词嵌入,生成器生成X到Y的映射W,为一个d×d维空间的实数矩阵,|| ||F为F范数符号,W*表示WX-Y的F范数最小时映射函数的值;判别器辨别WX和对应Y之间的不同,通过判别器和生成器的不断对抗,直到WX与Y相似程度使得判别器判别不出;
所述判别器的参数为θD,判别器的损失函数如下所示:
n为源语言的单词数量,m为目标语言的单词数量,xi表示源语言中第i个单词的词嵌入,yi表示目标语言中第i个单词的词嵌入;
表示判别器认为Wxi是源语言嵌入的概率,表示判别器认为yi是目标语言嵌入的概率;
训练W使得判别器无法辨别出WX与Y,则其损失函数为:
表示判别器认为Wxi是目标语言嵌入的概率,表示判别器认为yi是源语言嵌入的概率;
给定输入的样本,判别器和映射函数W依次用随机梯度下降法进行更新,使得LD(θD|W)与LW(W|θD)之和最小;
最终得到源语言与目标语言在同一个共享向量空间的词向量,任意一个源语言单词的邻居节点均为目标语言的对应单词。
4.根据权利要求3所述基于异构图的单语言主题摘要生成方法,其特征在于,基于所述源语言的词向量,先采用卷积神经网络捕捉每个句子局部的n-garm特征,然后采用双向长短期记忆网络捕捉句子级特征,将所述局部的n-garm特征与所述句子级特征进行连接得到上下文单词嵌入,再用multi-GCN捕捉单词间的多个关系,对于句法关系,两个单词之间存在依赖关系时,Ar[wi,wj]=1,不存在依赖关系时,Ar[wi,wj]=0;对于语义关系,使用单词嵌入之间的点积绝对值来构造,
其中,Ar[wi,wj]表示第i个单词wi与第j个单词wj之间的句法关系或者语义关系;表示第i个单词的词向量的转置,第j个单词的词向量,表示和点积的绝对值,以判断两个单词语义是否相似。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210416073.3/1.html,转载请声明来源钻瓜专利网。