[发明专利]一种基于图模型和词向量相结合的词义消歧方法及装置在审

专利信息
申请号: 202011063422.5 申请日: 2020-09-30
公开(公告)号: CN112214999A 公开(公告)日: 2021-01-12
发明(设计)人: 杜永兴;牛丽静;李宝山;胡伟健;李灵芳;周李涌 申请(专利权)人: 内蒙古科技大学;内蒙古智牧溯源技术开发有限公司
主分类号: G06F40/284 分类号: G06F40/284;G06F16/36;G06F40/289;G06F40/211;G06K9/62
代理公司: 黑龙江立超同创知识产权代理有限责任公司 23217 代理人: 王大为
地址: 014010 内蒙*** 国省代码: 内蒙古;15
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 模型 向量 相结合 词义 方法 装置
【说明书】:

一种基于图模型和词向量相结合的词义消歧方法及装置,属于自然语言处理领域,用以解决现有的词义消歧方法准确率不高的问题。本发明的技术要点包括,对数据集进行预处理,获取歧义词;构建图模型,并根据图模型获取上下文背景知识;训练词向量模型,并根据词向量模型对获取的歧义词和上下文背景知识进行词向量表示;将以词向量表示的歧义词和上下文背景知识进行交叉加权相似度计算并取均值,将相似度均值最高的确定为歧义词的正确义项。本发明通过将图模型和词向量结合,提高了词义消歧的正确率,取得了较好的消歧效果。本发明优于传统词义消歧方法,可以很好的满足实际应用的需求。

技术领域

本发明涉及自然语言处理领域,具体涉及一种基于图模型和词向量相结合的词义消歧方法及装置。

技术背景

词义消歧主要是为了解决句子中出现的多义词语的词义表达不明确的问题,是根据上下文知识来判断歧义词的具体义项,使计算机能更好的理解用户所表达的意图,增加用户体验。在计算语言领域中,词层面是词义消歧主要解决的问题,是计算机理解句子和篇章文本的基础。词义消歧对机器翻译,文本分类,信息检索,语音处理及问答系统有着直接的影响,所以词义消歧在自然语言处理领域中具有非常关键性的作用。现阶段,文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能,在自然语言处理研究领域,文本向量化是文本表示的一种重要方式,文本向量化就是将文本表示成一系列能够表达文本语义的向量,目前对文本向量化都是通过词向量化实现的。现有的基于图模型进行中文词义消歧任务处理的方法主要利用一种或多种中文知识资源,受知识资源不足问题的困扰,词义消歧性能较低。因此,如何提升词义消歧性能是急需解决的技术问题。

发明内容

鉴于以上问题,本发明提出一种基于图模型和词向量相结合的词义消歧方法及装置,用以解决现有的词义消歧方法准确率不高的问题。

根据本发明一方面,提出一种基于图模型和词向量相结合的词义消歧方法,包括以下步骤,

步骤一、对数据集进行预处理,获取歧义词;

步骤二、构建图模型,并根据所述图模型获取上下文背景知识;

步骤三、训练词向量模型,并根据所述词向量模型对步骤一获取的歧义词和步骤二获取的上下文背景知识进行词向量表示;

步骤四、将步骤三中以词向量表示的歧义词和上下文背景知识进行交叉加权相似度计算并取均值,将相似度均值最高的确定为歧义词的正确义项。

进一步地,步骤一的具体步骤包括,首先进行格式转化,获取文本格式数据;然后进行分词、去除标点符号以及去除停用词处理;最后获得歧义句中的歧义词。

进一步地,步骤二的具体步骤包括,首先进行依存句法分析以提取依存关系;然后根据依存关系构建图模型;然后根据图模型获取上下文背景知识与步骤一中获取的歧义词的距离;最后将所述距离和预设最小路径阈值进行比较,获取筛选后的上下文背景知识;其中,依存句法分析表示对句子结构进行分析。

进一步地,步骤二中进行依存句法分析以提取依存关系的具体步骤包括,首先对句子语法结构给予形式化定义;然后根据所述定义自动推导出句子的句法结构,并分析句子所包含的句法单位以及句法单位之间的关系。

进一步地,步骤三中训练词向量模型的具体步骤包括,首先对中文语料库中的数据进行预处理,所述预处理包括格式转换、中文简繁体转换、去除英文和空格以及中文分词处理;然后基于Word2Vector模型对预处理后的数据进行训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古科技大学;内蒙古智牧溯源技术开发有限公司,未经内蒙古科技大学;内蒙古智牧溯源技术开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011063422.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top