[发明专利]跨语言词向量生成方法、装置、电子设备及存储介质有效
申请号: | 202110452488.1 | 申请日: | 2021-04-25 |
公开(公告)号: | CN113157865B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 郭维;阮晓雯;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/30;G06N3/02;G06N3/08 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 向量 生成 方法 装置 电子设备 存储 介质 | ||
1.一种跨语言词向量生成方法,其特征在于,所述方法包括:
获取平行语料对,对所述平行语料对进行分词处理,得到分词语料对;
利用所述分词语料对构建平行语料网络;
对所述平行语料网络中的语料进行随机游走,得到混合语料序列;
汇总所述平行语料对及所述混合语料序列,得到语料训练集,利用所述语料训练集训练预构建的词向量模型,得到跨语言词向量生成模型;
获取跨语言语料,利用所述跨语言词向量生成模型生成所述跨语言语料的跨语言词向量;
其中,所述对所述平行语料网络中的语料进行随机游走,得到混合语料序列,包括:根据预设的转移概率对所述平行语料网络中各网络节点的关键词进行随机转移;根据所述转移概率计算各网络节点的关键词的未归一化概率,并基于所述未归一化概率完成所有网络节点的随机游走,得到所述混合语料序列;
所述根据所述转移概率计算各网络节点的关键词的未归一化概率,包括:
利用下述转移概率计算所述各网络节点的关键词的未归一化概率πvx:
πvx=αpq(t,x)*βo(t,x)*βo(v,x)
其中,p和q均为超参数,αpq(t,x)为关键词t与x之间的转移概率、dtx为关键词t与x之间的最短路径,t-v-x为关键词的游走轨迹,o为超参数,Ctx代表着关键词t与关键词x是否属于同一种语言,Cvx代表着关键词v与关键词x是否属于同一种语言,βo(t,x)表示关键词t与关键词x之间的转移权重,βo(v,x)表示关键词v与关键词x之间的转移权重。
2.如权利要求1所述的跨语言词向量生成方法,其特征在于,所述对所述平行语料对进行分词处理,得到分词语料对,包括:
对所述平行语料对中的语料进行分词处理,得到分词结果;
根据预设的停用词去除规则从所述分词结果中筛选出一个或多个关键词,汇总所有筛选出来的关键词,得到所述分词语料对。
3.如权利要求1所述的跨语言词向量生成方法,其特征在于,所述利用所述分词语料对构建平行语料网络,包括:
确定所述分词语料中的所有关键词作为网络节点;
在任意所述网络节点间构建连边,汇总所有网络节点及连边,得到所述平行语料网络。
4.如权利要求1至3中任意一项所述的跨语言词向量生成方法,其特征在于,所述利用所述语料训练集训练预构建的词向量模型,得到跨语言词向量生成模型,包括:
利用预设大小的滑动窗口选取所述语料训练集中的训练样本;
对所述训练样本进行序列编码,得到训练编码,利用所述训练编码更新所述词向量模型中隐层的权重矩阵;
利用所述权重矩阵计算所述训练样本中各词语的预测概率,根据所述预测概率调整预设的目标函数,直至所述目标函数收敛,生成所述跨语言词向量生成模型。
5.如权利要求4所述的跨语言词向量生成方法,其特征在于,所述对所述训练样本进行序列编码,得到训练编码,利用所述训练编码更新所述词向量模型中隐层的权重矩阵,包括:
利用预设的频率公式计算所述训练样本中词语的出现频率;
基于所述出现频率选取预设个数的词语作为负样本;
利用预设的编码方法对所述负样本进行序列编码,得到所述训练编码,并利用所述训练编码更新所述词向量模型中隐层的权重矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110452488.1/1.html,转载请声明来源钻瓜专利网。