[发明专利]一种基于不对等语料的跨语言词嵌入方法有效

申请号：	201910499213.6	申请日：	2019-06-11
公开（公告）号：	CN110297903B	公开（公告）日：	2021-04-30
发明（设计）人：	王红斌;冯银汉;线岩团;余正涛;郭剑毅;文永华	申请（专利权）人：	昆明理工大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	650093 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于对等语料语言嵌入方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于不对等语料的跨语言词嵌入方法，其特征在于：所述方法的具体步骤如下：

Step1、收集源语言语料和跨语言词对，将跨语言词对分成训练集和测试集；其中，跨语言词对指代的由源语言、目标语言组成的词对；

Step2、采用词向量转换工具分别对源语言语料、训练集的跨语言词对、测试集的跨语言词对进行处理分别得到源语言语料词向量S、训练集跨语言词对的词向量D、测试集跨语言词对的词向量DT；

Step3、分别归一化源语言语料词向量S、训练集跨语言词对的词向量D，得到归一化源语言语料词向量SN、归一化训练集跨语言词对的词向量DN；

Step4、用跨语言词嵌入方法和正交方法求归一化训练集跨语言词对的词向量DN的转换矩阵W；根据W得到梯度下降的初始值W₁＝W；

Step5、采用K-means对归一化源语言语料词向量SN进行聚类，得到S₁,S₂,S₃,...,S_i,...,S_n个聚类簇；其中S_i为第i个簇，n为聚类的簇数；

Step6、建立SN→X→Y之间的关系；SN为归一化源语言语料词向量，X为归一化训练集跨语言词对的词向量DN中的源语言词向量集合，Y为归一化训练集跨语言词对的词向量DN中与X互译的目标语言词向量集合，A是X在归一化源语言语料词向量SN中能查找到的集合，为{a₁,a₂,…,a_j,...,a_k}，其中a_j是A中第j个词向量，与SN聚类后的某个簇S_i存在对应关系，即a_j∈S_i，对簇S_i求平均为S_i'，查找到Y中与a_j互译的目标语言词向量b_m，将S_i'与b_m这对扩展后的对应关系一同追加到归一化训练集跨语言词对的词向量DN后面；