[发明专利]一种基于不对等语料的跨语言词嵌入方法有效
申请号: | 201910499213.6 | 申请日: | 2019-06-11 |
公开(公告)号: | CN110297903B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 王红斌;冯银汉;线岩团;余正涛;郭剑毅;文永华 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对等 语料 语言 嵌入 方法 | ||
1.一种基于不对等语料的跨语言词嵌入方法,其特征在于:所述方法的具体步骤如下:
Step1、收集源语言语料和跨语言词对,将跨语言词对分成训练集和测试集;其中,跨语言词对指代的由源语言、目标语言组成的词对;
Step2、采用词向量转换工具分别对源语言语料、训练集的跨语言词对、测试集的跨语言词对进行处理分别得到源语言语料词向量S、训练集跨语言词对的词向量D、测试集跨语言词对的词向量DT;
Step3、分别归一化源语言语料词向量S、训练集跨语言词对的词向量D,得到归一化源语言语料词向量SN、归一化训练集跨语言词对的词向量DN;
Step4、用跨语言词嵌入方法和正交方法求归一化训练集跨语言词对的词向量DN的转换矩阵W;根据W得到梯度下降的初始值W1=W;
Step5、采用K-means对归一化源语言语料词向量SN进行聚类,得到S1,S2,S3,...,Si,...,Sn个聚类簇;其中Si为第i个簇,n为聚类的簇数;
Step6、建立SN→X→Y之间的关系;SN为归一化源语言语料词向量,X为归一化训练集跨语言词对的词向量DN中的源语言词向量集合,Y为归一化训练集跨语言词对的词向量DN中与X互译的目标语言词向量集合,A是X在归一化源语言语料词向量SN中能查找到的集合,为{a1,a2,…,aj,...,ak},其中aj是A中第j个词向量,与SN聚类后的某个簇Si存在对应关系,即aj∈Si,对簇Si求平均为Si',查找到Y中与aj互译的目标语言词向量bm,将Si'与bm这对扩展后的对应关系一同追加到归一化训练集跨语言词对的词向量DN后面;
Step7、重复Step6,直到{a1,a2,…,aj,...,ak}都找到互译的目标语言词向量,并将词向量都追加到归一化训练集跨语言词对的词向量DN中,得到新的训练集跨语言词对的词向量D1,转到Step8;
Step8、以W1为初始值,对D1进行梯度下降求解,得到转换矩阵W的最优值Wb。
2.根据权利要求1所述的基于不对等语料的跨语言词嵌入方法,其特征在于:还包括如下步骤:
Step9、根据得到的转换矩阵W的最优值Wb,进行如下验证:
如果ulWb=vl,则测试正确个数P=P+1;否则不统计;其中,l=1,2,...,r;初始的P=0;
根据P的取值,
其中,r表示测试集中词对的对数;U为测试集跨语言词对的词向量DT中的源语言词向量集合,ul∈U、ul表示U中第l个源语言词向量;V为测试集跨语言词对的词向量DT中与U互译的目标语言词向量集合,vl∈V、vl表示V中与U互译的第l个目标语言词向量。
3.根据权利要求1所述的基于不对等语料的跨语言词嵌入方法,其特征在于:所述词向量转换工具采用:Word2vec、Glove。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910499213.6/1.html,转载请声明来源钻瓜专利网。