[发明专利]一种基于图卷积神经网络的中文词义消歧方法有效

专利信息
申请号: 202110485038.2 申请日: 2021-04-30
公开(公告)号: CN113095087B 公开(公告)日: 2022-11-25
发明(设计)人: 刘睿;仇化平;黄长帅 申请(专利权)人: 哈尔滨理工大学
主分类号: G06F40/30 分类号: G06F40/30;G06F40/289;G06F40/268;G06F16/35;G06N3/04;G06N3/08
代理公司: 暂无信息 代理人: 暂无信息
地址: 150080 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 图卷 神经网络 中文 词义 方法
【权利要求书】:

1.一种基于图卷积神经网络的中文词义消歧方法,主要包括以下步骤:

步骤1:对语料所包含的所有汉语句子进行分词、词性标注和语义类标注,选取歧义词汇所在的句子,以及句子内的词形、词性和语义类作为消歧特征,一共四种消歧特征;

步骤2:提取歧义词汇所在的句子,以及句子内的词形、词性和语义类,使用Doc2Vec工具将提取的句子特征进行向量化处理,使用Word2Vec工具将词形、词性和语义类特征进行向量化处理;选取一小部分处理好的语料作为测试数据,其余的作为训练数据;

步骤3:构建词义消歧特征图,将提取的句子,以及句子内的词形、词性和语义类作为图中的节点,构建词形与词形节点之间的边,词形与句子节点之间的边,词形与词性节点之间的边,词形与语义类节点之间的边;

步骤3-1将提取的句子,句子内的词形、词性和语义类构建为图中的节点;

步骤3-2对节点进行权值嵌入,使用步骤2中所得到的每个特征的特征向量进行权值嵌入;

步骤3-3建立节点与节点之间边的关系,使用PMI方法计算并嵌入词形与词形节点之间的边的权值,使用TF-IDF方法计算并嵌入词形与句子节点之间的边的权值,使用Word2Vec工具计算并分别嵌入词形与词性、词形与语义类节点之间的边的权值;图中的节点以及边的关系建立完成,并嵌入了其特征的特征向量;

步骤4:训练过程为:由训练数据构建好的词义消歧特征图输入到GCN模型里面进行训练,得到优化后的GCN模型;

步骤4-1由训练数据构建好的词义消歧特征图输入到初始化的GCN模型中;

步骤4-2经过输入层,接受完整的消歧特征;

步骤4-3经过卷积层,对消歧信息进行过滤,提取更完整的消歧特征,将节点及其邻居节点之间的特征进行融合,模型的卷积公式如下:

其中,ReLU为激活函数,ReLU(x)=max(0,x);是规范化对称邻接矩阵,W0和W1是卷积层的权重矩阵;

步骤4-4经过卷积层操作之后,进入输出层;利用softmax函数来计算歧义词汇c在每个语义类别si下的预测概率,所述的softmax函数如下:

其中,ai表示softmax函数的输入数据,p(si|c)表示歧义词汇c在语义类别si下的出现概率i=1,2,…,k;

步骤4-5从p(s1|c)、p(s2|c)、...、p(sk|c)中选取最大概率作为预测概率;

其中,t表示歧义词汇c的预测概率;

步骤4-6其模型的损失函数L定义为所有标记句子的交叉熵损失误差,公式如下:

其中,yD为具有标签的词义词汇c所在句子索引集,F是输出特征的维数,等同于歧义词汇c的语义类别的数量,Y是标签指示矩阵;通过损失函数、梯度下降来不断优化GCN的模型,得到优化后的GCN模型;

步骤5:测试过程为:由测试数据构建的词义消歧特征图输入到优化后的GCN模型里面进行测试,即语义分类过程;计算歧义词汇在每个语义类别下的概率分布,其中,具有最大概率的语义类即为歧义词汇的语义类;

步骤5-1由测试数据构建好的词义消歧特征图输入到优化好的GCN模型中;

步骤5-2经过输入层,接受完整的消歧特征;

步骤5-3经过卷积层,对消歧信息进行过滤,提取更完整的消歧特征,将节点及其邻居节点之间的特征进行融合;

步骤5-4经过输出层,利用softmax函数来计算歧义词汇c在每个语义类别下的概率分布,最后选取最大值对应的语义类别作为歧义词汇c的语义类别;

语义类别s的确定过程如下:

其中,s表示概率最大的语义类别,k表示语义类别数,p(s1|c),...,p(si|c),...,p(sk|c)表示歧义词汇c在语义类别下的概率分布序列。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110485038.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top