[发明专利]词向量生成方法、终端设备及计算机可读存储介质有效
申请号: | 202011416194.5 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112528646B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 熊为星 | 申请(专利权)人: | 深圳市优必选科技股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/35;G06N3/0464 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 左婷兰 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量 生成 方法 终端设备 计算机 可读 存储 介质 | ||
本申请适用于终端技术领域,尤其涉及一种词向量生成方法、终端设备及计算机可读存储介质。所述词向量生成方法,在需要生成目标词对应的目标词向量时,可以先确定目标词对应的初始词向量、图像特征向量以及音频特征向量。然后,可以根据目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成目标词对应的目标词向量。即本申请实施例通过结合文本信息、图像信息以及声音信息来进行词向量的生成,使得所生成的词向量具有丰富的特征信息,可以充分体现词的属性特征,以为后续的自然语言处理提供更可靠的词向量,提高自然语言处理的准确性,极大地扩展了自然语言处理的应用范围。
技术领域
本申请属于终端技术领域,尤其涉及词向量生成方法、终端设备及计算机可读存储介质。
背景技术
在自然语言处理中,为了让计算机可以理解词的含义,需要将词转换成词向量。词向量是词的向量化表示,具有相似含义的词往往具有相似的向量化表示。目前,主要是通过训练大量的文本信息来构建每个词对应的词向量。由于词的文本信息并不能充分体现词的属性特征,因此仅基于文本信息所生成的词向量的特征信息较少,无法充分体现词的属性特征,使得自然语言处理的准确性较低,影响自然语言处理技术的广泛应用。
发明内容
本申请实施例提供了一种词向量生成方法、装置、终端设备及计算机可读存储介质,可以丰富词向量的特征信息,使得词向量可以充分体现出词的属性特征,从而提高自然语言处理的准确性。
第一方面,本申请实施例提供了一种词向量生成方法,包括:
获取目标词,并确定所述目标词对应的初始词向量;
确定所述目标词对应的图像特征向量,以及确定所述目标词对应的音频特征向量;
根据所述目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成所述目标词对应的目标词向量。
在第一方面的一种可能的实现方式中,在所述确定所述目标词对应的图像特征向量,以及确定所述目标词对应的音频特征向量之前,可以包括:
构建词汇表,所述词汇表中包括多个预设词;
针对每一个预设词,获取所述预设词对应的图像和音频;
根据所述预设词对应的图像构建所述预设词对应的图像特征向量,并根据所述预设词对应的音频构建所述预设词对应的音频特征向量。
示例性的,所述预设词对应的图像包括多张,所述根据所述预设词对应的图像构建所述预设词对应的图像特征向量,可以包括:
将所述预设词对应的多张图像分别输入至预设的图像识别模型,获取所述图像识别模型的第一目标网络层提取的初始图像特征向量,所述第一目标网络层为所述图像识别模型的最后一层网络;
对各所述初始图像特征向量进行聚类分析,确定第一聚类中心点;
获取各所述初始图像特征向量与所述第一聚类中心点之间的第一距离,并根据所述第一距离选取第一预设数量的初始图像特征向量;
对所述第一预设数量的初始图像特征向量进行均值计算,并将计算得到的均值图像特征向量确定为所述预设词对应的图像特征向量。
具体地,所述对各所述初始图像特征向量进行聚类分析,确定第一聚类中心点,可以包括:
分别将各所述初始图像特征向量确定为初始聚类中心点,获取其他初始图像特征向量与所述初始聚类中心点之间的第二距离,并将各所述第二距离进行相加,得到各所述初始聚类中心点对应的距离和;
将最小距离和对应的初始聚类中心点确定为所述第一聚类中心点。
示例性的,所述预设词对应的音频包括多个,所述根据所述预设词对应的音频构建所述预设词对应的音频特征向量,可以包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市优必选科技股份有限公司,未经深圳市优必选科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011416194.5/2.html,转载请声明来源钻瓜专利网。