[发明专利]一种基于词向量的词义消歧方法及装置有效
申请号: | 201810179896.2 | 申请日: | 2018-03-05 |
公开(公告)号: | CN108446269B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 吕晓伟;贾连印 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/47 | 分类号: | G06F40/47;G06F40/44;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 向量 词义 方法 装置 | ||
1.一种基于词向量的词义消歧方法,其特征在于:
1)数据预处理步骤,对文档和义项进行去标点符号、分词处理;
2)训练词向量步骤,使用词向量训练工具训练词向量;
3)上下文向量表示步骤,获取词向量并采用局部加权方法计算上下文向量;
所述上下文向量表示步骤,具体包括如下步骤:
步骤310:抽取上下文中每个词的词向量并将其存入矩阵Am*n中,其中,m表示词的个数,n表示词向量的维度,上下文中的第i个词的词向量存入矩阵中的第i行,矩阵中的一行表示一个词的词向量;
步骤320:基于公式计算上下文中各个词相对歧义词的位置权重,公式中t2是调节权重下降速度的参数,x是上下文中歧义词的位置,xi是上下文中其它词的位置,将权重存入向量Bm中,其中m表示上下文中词的个数,上下文中的第i个词的权重存入向量B的第i列;
步骤330:计算向量B与矩阵A的乘积BA,结果为该上下文的向量表示;
4)义项向量表示步骤,获取义项各个词的词向量,得到义项向量;
5)相似度计算步骤,计算上下文向量与各个义项向量之间的余弦相似度;
6)义项分布频率计算步骤,统计数据集中歧义词的各个义项的分布频率;
7)最终得分统计步骤,计算上下文与各个义项的余弦相似度以及各个义项频率的综合得分,最高得分的义项为最佳词义。
2.根据权利要求1所述的基于词向量的词义消歧方法,其特征在于:所述数据预处理步骤,具体包括如下步骤:
步骤110:给定一篇包含歧义词的文档,对该文档进行处理:去标点符号、分词、去停用词、大写转换为小写,经过预处理的文档,称为上下文;
步骤120:给定一个歧义词的所有义项,对各个义项进行处理:去标点符号、分词、去停用词、大写转换为小写。
3.根据权利要求1所述的基于词向量的词义消歧方法,其特征在于:所述训练词向量步骤,具体包括如下步骤:
步骤210:下载训练词向量的源代码,对语料库进行训练,得到词向量。
4.根据权利要求1所述的基于词向量的词义消歧方法,其特征在于:所述义项向量表示步骤,具体包括如下步骤:
步骤410:抽取义项中每个词的词向量并将其存入矩阵Mk*n中,k表示义项中词的个数,n表示词向量的维度,义项中的第i个词的词向量存入矩阵中的第i行,矩阵中的一行表示一个词的词向量;
步骤420:将矩阵M中的所有词的词向量进行向量相加,用所得相加的向量除以词的个数,所得为义项的向量表示。
5.根据权利要求1所述的基于词向量的词义消歧方法,其特征在于:所述相似度计算步骤,具体包括如下步骤:
步骤510:基于公式:计算上下文和歧义词各个义项的余弦相似度,其中,Ec表示上下文向量,Eg_j表示歧义词第j个义项的向量表示,cos(Ec,Eg_j)表示上下文与歧义词的第j个义项的余弦相似度。
6.根据权利要求1所述的基于词向量的词义消歧方法,其特征在于:所述义项分布频率计算步骤,具体包括如下步骤:
步骤610:根据公式计算数据集中歧义词的各个义项的频率,N表示包含该歧义词的所有上下文个数,ni表示该歧义词以第i个义项为解释的上下文个数,pi表示该歧义词以第i个义项为解释的频率。
7.根据权利要求1所述的基于词向量的词义消歧方法,其特征在于:所述最终得分统计步骤,具体包括如下步骤:
步骤710:综合考虑上下文与义项的余弦相似度以及该义项的分布频率对词义消歧的影响,根据公式score=a*cos(Ec,Eg_j)+(1-a)*pi计算得到该义项的综合得分,其中a为参数,cos(Ec,Eg_j)表示上下文Ec与歧义词的第j个义项Eg_j的余弦相似度,pi表示该歧义词以第i个义项为解释的频率,得分最高的义项为该歧义词在该上下文中的最佳解释。
8.一种基于词向量的词义消歧装置,其特征在于:包括:
1)数据预处理模块,对文档和义项进行去标点符号、分词处理;
2)训练词向量模块,使用词向量训练工具训练词向量;
3)上下文向量表示模块,获取词向量并采用局部加权方法计算上下文向量;
所述上下文向量表示步骤,具体包括如下步骤:
步骤310:抽取上下文中每个词的词向量并将其存入矩阵Am*n中,其中,m表示词的个数,n表示词向量的维度,上下文中的第i个词的词向量存入矩阵中的第i行,矩阵中的一行表示一个词的词向量;
步骤320:基于公式计算上下文中各个词相对歧义词的位置权重,公式中t2是调节权重下降速度的参数,x是上下文中歧义词的位置,xi是上下文中其它词的位置,将权重存入向量Bm中,其中m表示上下文中词的个数,上下文中的第i个词的权重存入向量B的第i列;
步骤330:计算向量B与矩阵A的乘积BA,结果为该上下文的向量表示;
4)义项向量表示模块,获取义项各个词的词向量,得到义项向量;
5)相似度计算模块,计算上下文向量与各个义项向量之间的余弦相似度;
6)义项分布频率计算模块,统计数据集中歧义词的各个义项的分布频率;
7)最终得分统计模块,计算上下文与各个义项的余弦相似度以及各个义项频率的综合得分,最高得分的义项为最佳词义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810179896.2/1.html,转载请声明来源钻瓜专利网。