[发明专利]词向量生成方法、终端设备及计算机可读存储介质有效
申请号: | 202011416194.5 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112528646B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 熊为星 | 申请(专利权)人: | 深圳市优必选科技股份有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/35;G06N3/0464 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 左婷兰 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量 生成 方法 终端设备 计算机 可读 存储 介质 | ||
1.一种词向量生成方法,其特征在于,包括:
获取目标词,并确定所述目标词对应的初始词向量;
确定所述目标词对应的图像特征向量,以及确定所述目标词对应的音频特征向量;
根据所述目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成所述目标词对应的目标词向量;
其中,在所述确定所述目标词对应的图像特征向量,以及确定所述目标词对应的音频特征向量之前包括:
构建词汇表,所述词汇表中包括多个预设词;
针对每一个预设词,获取所述预设词对应的图像和音频,所述预设词对应的图像包括多张;
将所述预设词对应的多张图像分别输入至预设的图像识别模型,获取所述图像识别模型的第一目标网络层提取的初始图像特征向量,所述第一目标网络层为所述图像识别模型的最后一层网络;
对各所述初始图像特征向量进行聚类分析,确定第一聚类中心点;
获取各所述初始图像特征向量与所述第一聚类中心点之间的第一距离,并根据所述第一距离选取第一预设数量的初始图像特征向量;
对所述第一预设数量的初始图像特征向量进行均值计算,并将计算得到的均值图像特征向量确定为所述预设词对应的图像特征向量;
根据所述预设词对应的音频构建所述预设词对应的音频特征向量。
2.如权利要求1所述的词向量生成方法,其特征在于,所述对各所述初始图像特征向量进行聚类分析,确定第一聚类中心点包括:
分别将各所述初始图像特征向量确定为初始聚类中心点,获取其他初始图像特征向量与所述初始聚类中心点之间的第二距离,并将各所述第二距离进行相加,得到各所述初始聚类中心点对应的距离和;
将最小距离和对应的初始聚类中心点确定为所述第一聚类中心点。
3.如权利要求1所述的词向量生成方法,其特征在于,所述预设词对应的音频包括多个,所述根据所述预设词对应的音频构建所述预设词对应的音频特征向量包括:
获取所述预设词对应的各音频的Fbank特征,并将各所述Fbank特征分别输入至预设的语音识别模型,获取所述语音识别模型的第二目标网络层提取的初始音频特征向量,所述第二目标网络层为所述语音识别模型的最后一层网络;
对各所述初始音频特征向量进行聚类分析,确定第二聚类中心点;
获取各所述初始音频特征向量与所述第二聚类中心点之间的第三距离,并根据所述第三距离选取第二预设数量的初始音频特征向量;
对所述第二预设数量的初始音频特征向量进行均值计算,并将计算得到的均值音频特征向量确定为所述预设词对应的音频特征向量。
4.如权利要求1所述的词向量生成方法,其特征在于,在所述根据所述目标词对应的初始词向量、图像特征向量、音频特征向量以及预设权重矩阵生成所述目标词对应的目标词向量之前,包括:
获取训练文本,并对所述训练文本进行分词处理,得到各训练词;
确定中心训练词,并获取所述中心训练词对应的初始词向量和所述中心训练词对应的相关训练词,所述中心训练词为所述各训练词中的任一训练词;
获取所述相关训练词对应的初始词向量、图像特征向量以及音频特征向量,并对所述相关训练词对应的初始词向量、图像特征向量以及音频特征向量进行组合,得到所述相关训练词对应的第一训练向量;
将所述第一训练向量输入至第一词向量模型进行处理,得到所述第一词向量模型输出的第一训练结果;
根据所述第一训练结果和所述中心训练词对应的初始词向量确定所述第一词向量模型的第一训练误差;
当所述第一训练误差不满足第一预设条件时,调整所述第一词向量模型的第一模型参数,并返回执行所述获取训练文本,并对所述训练文本进行分词处理,得到各训练词的步骤以及后续步骤,所述第一模型参数包括所述预设权重矩阵,所述预设权重矩阵为所述第一词向量模型的输入层与隐藏层之间的权重矩阵;
当所述第一训练误差满足所述第一预设条件时,得到所述预设权重矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市优必选科技股份有限公司,未经深圳市优必选科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011416194.5/1.html,转载请声明来源钻瓜专利网。