[发明专利]一种基于图卷积神经网络的中文词义消歧方法有效
申请号: | 202110485038.2 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113095087B | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 刘睿;仇化平;黄长帅 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F40/268;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图卷 神经网络 中文 词义 方法 | ||
1.一种基于图卷积神经网络的中文词义消歧方法,主要包括以下步骤:
步骤1:对语料所包含的所有汉语句子进行分词、词性标注和语义类标注,选取歧义词汇所在的句子,以及句子内的词形、词性和语义类作为消歧特征,一共四种消歧特征;
步骤2:提取歧义词汇所在的句子,以及句子内的词形、词性和语义类,使用Doc2Vec工具将提取的句子特征进行向量化处理,使用Word2Vec工具将词形、词性和语义类特征进行向量化处理;选取一小部分处理好的语料作为测试数据,其余的作为训练数据;
步骤3:构建词义消歧特征图,将提取的句子,以及句子内的词形、词性和语义类作为图中的节点,构建词形与词形节点之间的边,词形与句子节点之间的边,词形与词性节点之间的边,词形与语义类节点之间的边;
步骤3-1将提取的句子,句子内的词形、词性和语义类构建为图中的节点;
步骤3-2对节点进行权值嵌入,使用步骤2中所得到的每个特征的特征向量进行权值嵌入;
步骤3-3建立节点与节点之间边的关系,使用PMI方法计算并嵌入词形与词形节点之间的边的权值,使用TF-IDF方法计算并嵌入词形与句子节点之间的边的权值,使用Word2Vec工具计算并分别嵌入词形与词性、词形与语义类节点之间的边的权值;图中的节点以及边的关系建立完成,并嵌入了其特征的特征向量;
步骤4:训练过程为:由训练数据构建好的词义消歧特征图输入到GCN模型里面进行训练,得到优化后的GCN模型;
步骤4-1由训练数据构建好的词义消歧特征图输入到初始化的GCN模型中;
步骤4-2经过输入层,接受完整的消歧特征;
步骤4-3经过卷积层,对消歧信息进行过滤,提取更完整的消歧特征,将节点及其邻居节点之间的特征进行融合,模型的卷积公式如下:
其中,ReLU为激活函数,ReLU(x)=max(0,x);是规范化对称邻接矩阵,W0和W1是卷积层的权重矩阵;
步骤4-4经过卷积层操作之后,进入输出层;利用softmax函数来计算歧义词汇c在每个语义类别si下的预测概率,所述的softmax函数如下:
其中,ai表示softmax函数的输入数据,p(si|c)表示歧义词汇c在语义类别si下的出现概率i=1,2,…,k;
步骤4-5从p(s1|c)、p(s2|c)、...、p(sk|c)中选取最大概率作为预测概率;
其中,t表示歧义词汇c的预测概率;
步骤4-6其模型的损失函数L定义为所有标记句子的交叉熵损失误差,公式如下:
其中,yD为具有标签的词义词汇c所在句子索引集,F是输出特征的维数,等同于歧义词汇c的语义类别的数量,Y是标签指示矩阵;通过损失函数、梯度下降来不断优化GCN的模型,得到优化后的GCN模型;
步骤5:测试过程为:由测试数据构建的词义消歧特征图输入到优化后的GCN模型里面进行测试,即语义分类过程;计算歧义词汇在每个语义类别下的概率分布,其中,具有最大概率的语义类即为歧义词汇的语义类;
步骤5-1由测试数据构建好的词义消歧特征图输入到优化好的GCN模型中;
步骤5-2经过输入层,接受完整的消歧特征;
步骤5-3经过卷积层,对消歧信息进行过滤,提取更完整的消歧特征,将节点及其邻居节点之间的特征进行融合;
步骤5-4经过输出层,利用softmax函数来计算歧义词汇c在每个语义类别下的概率分布,最后选取最大值对应的语义类别作为歧义词汇c的语义类别;
语义类别s的确定过程如下:
其中,s表示概率最大的语义类别,k表示语义类别数,p(s1|c),...,p(si|c),...,p(sk|c)表示歧义词汇c在语义类别下的概率分布序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110485038.2/1.html,转载请声明来源钻瓜专利网。