[发明专利]词向量构建方法、装置、电子设备及存储介质有效

申请号：	202010445789.7	申请日：	2020-05-25
公开（公告）号：	CN111353303B	公开（公告）日：	2020-08-25
发明（设计）人：	刘志煌	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/289;G06F40/30;G06K9/62
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	李娟
地址：	518044 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	向量构建方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及大数据技术领域，公开了一种词向量构建方法、装置、电子设备及存储介质，通过融合表征局部上下文特征的局部词向量和表征分词所在文本的主题的概率分布的主题分布向量，从而构建更准确的词向量，实现多义词消歧。所述方法包括：对多个待处理文本进行分词处理，获得各个待处理文本中的分词；基于各个分词所在的上下文，获得各个分词的局部词向量；基于各个分词所属主题在多个待处理文本中的概率分布，获取各个分词的主题分布向量；分别对各个分词的局部词向量和主题分布向量进行融合，获得各个分词的目标词向量。

技术领域

本申请涉及大数据技术领域，尤其涉及一种词向量构建方法、装置、电子设备及存储介质。

背景技术

一词多义是自然语言处理中常见的现象和许多场景需要解决的难题，无论是中文或是英文，许多词语往往在不同的上下文中会呈现不同的语义。例如，在“最近苹果产量多水分充足”这类文本中“苹果”是一种水果，而在“苹果公司发布了最新版本的苹果手机”这类文本中“苹果”指的是手机品牌。目前主流的词向量模型（如word2vec模型等）在构造词向量时，通常一个词用唯一的向量化编码进行表示，导致在词向量构造阶段无法区分不同语境下的多义词，降低了后续进行自然语言处理的准确度。

发明内容

本申请实施例提供一种词向量构建方法、装置、电子设备及存储介质，通过融合表征局部上下文特征的局部词向量和表征分词所在文本的主题的概率分布的主题分布向量，从而构建更准确的词向量，实现多义词消歧。

一方面，本申请一实施例提供了一种词向量构建方法，包括：

对多个待处理文本进行分词处理，获得各个待处理文本中的分词；

基于各个分词所在的上下文，获得各个分词的局部词向量；

基于各个分词所属主题在所述多个待处理文本中的概率分布，获取各个分词的主题分布向量；

分别对各个分词的局部词向量和主题分布向量进行融合，获得各个分词的目标词向量。

一方面，本申请一实施例提供了一种词向量构建装置，包括：

分词模块，用于对多个待处理文本进行分词处理，获得各个待处理文本中的分词；

局部词向量获取模块，用于基于各个分词所在的上下文，获得各个分词的局部词向量；

主题分布向量获取模块，用于基于各个分词所属主题在所述多个待处理文本中的概率分布，获取各个分词的主题分布向量；

融合模块，用于分别对各个分词的局部词向量和主题分布向量进行融合，获得各个分词的目标词向量。