[发明专利]多义词识别方法、装置、电子设备及计算机可读存储介质有效
申请号: | 202010307555.6 | 申请日: | 2020-04-17 |
公开(公告)号: | CN111507098B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 刘志煌 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/237 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多义词 识别 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本申请实施例涉及人工智能技术领域,公开了一种基于自然语言处理的多义词识别方法、装置、电子设备及计算机可读存储介质,包括:确定待识别词的全局主题分布,待识别词是通过对文本进行分词处理得到的,全局主题分布表征文本的主题分布;接着,确定待识别词与至少一个第一关联词之间的至少一个第一互信息,并基于至少一个第一互信息确定待识别词的局部主题分布,第一关联词与待识别词具有关联关系,局部主题分布表征待识别词在文本中的局部上下文的主题分布;接着,确定全局主题分布与局部主题分布的第一相似度,并根据第一相似度对待识别词进行多义词识别处理。通过融合全局主题分布与局部主题分布,进行多义词识别,具有较高实践价值和意义。
技术领域
本申请实施例涉及人工智能技术领域,具体而言,本申请涉及一种基于自然语言处理的多义词识别方法、装置、电子设备及计算机可读存储介质。
背景技术
一词多义是自然语言处理中常见的现象和许多场景需要解决的难题,无论是中文或是英文,许多词语往往在不同的上下文中会呈现不同的语义。例如,苹果这个词,在与食品餐饮类相关的文字描述中其为一种水果,而在与科技电子类相关的文字描述中其为手机、电脑等。由于目前主流的词向量模型(比如word2vec模型)构造的词向量,将一个词语表征为唯一的向量化编码,导致多义词均编码为同一词向量,因此,需要进行多义词识别。
多义词识别任务就是让计算机能够自动的识别出给定的段落或句子中存在的多义词,并赋予该词更精确的词表示。多义词识别具有很重要的意义,它不仅能够提高词表示和段表示的质量,也能更准确地挖掘出句子所表达的情感,提高自然语言处理任务的准确率。
本申请的发明人在具体实现过程中发现:目前识别多义词的方法,例如聚类多义词识别、通过平行语料从文本翻译的转化角度识别一词多义、基于投票集成的方法识别多义词等方法等,在识别多义词的过程,不仅耗费大量时间、占用大量资源,而且识别效果不稳定、准确率较低。
发明内容
本申请实施例的目的旨在至少能解决上述的技术缺陷之一,特提出以下技术方案:
一方面,提供了一种多义词识别方法,包括:
确定待识别词的全局主题分布,待识别词是通过对文本进行分词处理得到的,全局主题分布表征文本的主题分布;
确定待识别词与至少一个第一关联词之间的至少一个第一互信息,并基于至少一个第一互信息确定待识别词的局部主题分布,第一关联词与待识别词具有关联关系,局部主题分布表征待识别词在文本中的局部上下文的主题分布;
确定全局主题分布与局部主题分布的第一相似度,并根据第一相似度对待识别词进行多义词识别处理。
一方面,提供了一种多义词识别装置,包括:
第一确定模块,用于确定待识别词的全局主题分布,待识别词是通过对文本进行分词处理得到的,全局主题分布表征文本的主题分布;
第二确定模块,用于确定待识别词与至少一个第一关联词之间的至少一个第一互信息,并基于至少一个第一互信息确定待识别词的局部主题分布,第一关联词与待识别词具有关联关系,局部主题分布表征待识别词在文本中的局部上下文的主题分布;
处理模块,用于确定全局主题分布与局部主题分布的第一相似度,并根据第一相似度对待识别词进行多义词识别处理。
在一种可能的实现方式中,第一确定模块用于:
基于预定主题模型确定待识别词所在的文本的主题分布;
确定文本的主题分布为待识别词的全局主题分布。
在一种可能的实现方式中,预定主题模型包括基于期望最大化算法训练得到的文档主题生成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010307555.6/2.html,转载请声明来源钻瓜专利网。