[发明专利]一种基于词向量的词义消歧方法及装置有效
申请号: | 201810179896.2 | 申请日: | 2018-03-05 |
公开(公告)号: | CN108446269B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 吕晓伟;贾连印 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/47 | 分类号: | G06F40/47;G06F40/44;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于词向量的词义消歧方法及装置,本发明方法包括数据预处理步骤,对文档和义项进行去标点符号、分词等处理;训练词向量步骤,使用词向量训练工具训练词向量;上下文向量表示步骤,获取词向量并采用局部加权方法计算上下文向量;义项向量表示步骤,获取义项各个词的词向量,计算得到义项向量;相似度计算步骤,计算上下文向量与各个义项向量之间的余弦相似度;义项分布频率计算步骤,统计数据集中歧义词的各个义项的分布频率;最终得分统计步骤,计算上下文与各个义项的余弦相似度以及各个义项频率的综合得分,最高得分的义项为最佳词义。 | ||
搜索关键词: | 一种 基于 向量 词义 方法 装置 | ||
【主权项】:
1.一种基于词向量的词义消歧方法,其特征在于:1)数据预处理步骤,对文档和义项进行去标点符号、分词等处理;2)训练词向量步骤,使用词向量训练工具训练词向量;3)上下文向量表示步骤,获取词向量并采用局部加权方法计算上下文向量;4)义项向量表示步骤,获取义项各个词的词向量,得到义项向量;5)相似度计算步骤,计算上下文向量与各个义项向量之间的余弦相似度;6)义项分布频率计算步骤,统计数据集中歧义词的各个义项的分布频率;7)最终得分统计步骤,计算上下文与各个义项的余弦相似度以及各个义项频率的综合得分,最高得分的义项为最佳词义。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810179896.2/,转载请声明来源钻瓜专利网。