[发明专利]一种基于不对等语料的跨语言词嵌入方法有效
申请号: | 201910499213.6 | 申请日: | 2019-06-11 |
公开(公告)号: | CN110297903B | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 王红斌;冯银汉;线岩团;余正涛;郭剑毅;文永华 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于不对等语料的跨语言词嵌入方法,属于自然语言处理技术领域。本发明首先对单语词向量进行归一化,对小字典词对(训练集跨语言词对)正交最优线性变换求得梯度下降初始值,然后通过对大型源语言(英语)语料进行聚类,借助小字典找到与每一聚类簇相对应的源语言词,取聚类得到的每一簇词向量均值和源语言与目标语言对应的词向量均值,建立新的双语词向量对应关系,将新建立的双语词向量扩展到小字典中,使得小字典得以泛化和扩展。最后,利用泛化扩展后的字典对跨语言词嵌入映射模型进行梯度下降求得最优值。 | ||
搜索关键词: | 一种 基于 对等 语料 语言 嵌入 方法 | ||
【主权项】:
1.一种基于不对等语料的跨语言词嵌入方法,其特征在于:所述方法的具体步骤如下:Step1、收集源语言语料和跨语言词对,将跨语言词对分成训练集和测试集;其中,跨语言词对指代的由源语言、目标语言组成的词对;Step2、采用词向量转换工具分别对源语言语料、训练集的跨语言词对、测试集的跨语言词对进行处理分别得到源语言语料词向量S、训练集跨语言词对的词向量D、测试集跨语言词对的词向量DT;Step3、分别归一化源语言语料词向量S、训练集跨语言词对的词向量D,得到归一化源语言语料词向量SN、归一化训练集跨语言词对的词向量DN;Step4、用跨语言词嵌入方法和正交方法求归一化训练集跨语言词对的词向量DN的转换矩阵W;根据W得到梯度下降的初始值W1=W;Step5、采用K‑means对归一化源语言语料词向量SN进行聚类,得到S1,S2,S3,...,Si,...,Sn个聚类簇;其中Si为第i个簇,n为聚类的簇数;Step6、建立SN→X→Y之间的关系;SN为归一化源语言语料词向量,X为归一化训练集跨语言词对的词向量DN中的源语言词向量集合,Y为归一化训练集跨语言词对的词向量DN中与X互译的目标语言词向量集合,A是X在归一化源语言语料词向量SN中能查找到的集合,为{a1,a2,…,aj,...,ak},其中aj是A中第j个词向量,与SN聚类后的某个簇Si存在对应关系,即aj∈Si,对簇Si求平均为Si',查找到Y中与aj互译的目标语言词向量bm,将Si'与bm这对扩展后的对应关系一同追加到归一化训练集跨语言词对的词向量DN后面;Step7、重复Step6,直到{a1,a2,…,aj,...,ak}都找到互译的目标语言词向量,并将词向量都追加到归一化训练集跨语言词对的词向量DN中,得到新的训练集跨语言词对的词向量D1,转到Step8;Step8、以W1为初始值,对D1进行梯度下降求解,得到转换矩阵W的最优值Wb。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910499213.6/,转载请声明来源钻瓜专利网。