[发明专利]一种基于语料合并的无监督双语词典构建方法有效
申请号: | 202110685974.8 | 申请日: | 2021-06-21 |
公开(公告)号: | CN113343672B | 公开(公告)日: | 2022-12-16 |
发明(设计)人: | 曹海龙;赵铁军;朱聪慧;韩梦凡 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/284 |
代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 刘景祥 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语料 合并 监督 双语 词典 构建 方法 | ||
1.一种基于语料合并的无监督双语词典构建方法,其特征在于,所述基于语料合并的无监督双语词典构建方法包括以下步骤:
步骤一、根据源语言单语语料和目标语言单语语料训练得到各自对应的词向量;
步骤二、计算步骤一得到的词向量对应的两个自相似度矩阵,利用自相似度矩构建初始化词典D0,并根据初始化词典D0迭代自学习方法得到映射矩阵W;
步骤三、根据步骤二得到的映射矩阵W,将源语言词向量映射到目标语言词向量空间中,并据此抽取词典;
步骤四、根据步骤三得到的词典替换原来单语语料的单词并混合两个单语语料得到混合语料;
步骤五、利用词向量训练方法训练步骤四得到的混合语料并获取混合语料的词向量;
步骤六、将步骤五中得到混合词向量分开得到新的源语言和目标语言词向量;
步骤七、将步骤六得到的新的源语言和目标语言词向量作为输入,重新进行步骤二的过程得到新的映射矩阵W1,利用W1将不同语言的词向量映射到同一个向量空间,在该向量空间中根据相似度构建词典;
步骤三中,利用步骤二得到的映射矩阵进行词典抽取,具体过程为:
步骤三一、利用步骤二得到的映射矩阵W,将源语言词向量映射到目标语言向量空间中,在所述目标语言向量空间中,寻找与源语言单词最近的目标单词作为所述源语言单词的翻译,将所述源语言单词和该源语言单词的翻译形成翻译对;
步骤三二、将步骤三一得到的翻译对,按照翻译对两个单词之间相似度的大小,从大到小进行排序,抽取排序后翻译对的前1500个翻译对作为替换词典;
步骤四中,利用步骤三抽取得到的词典对原来的单语语料进行单词替换与语料合并,具体过程为:
步骤四一、将步骤三二得到的翻译对联结成一个整体,即翻译联结对,具体的,将翻译对中的源语言单词和目标语言单词联结成一个整体得到对应的翻译联结对,将步骤三二中的1500个翻译对联结成对应的1500个翻译联结对;
步骤四二、利用步骤三得到的词典和步骤四一得到的翻译联结对,对原始单语语料进行单词替换,并且将替换完的单语语料进行合并。
2.根据权利要求1所述的一种基于语料合并的无监督双语词典构建方法,其特征在于,步骤六中,将步骤五得到的源语言与目标语言词向量分离开,具体过程为:
步骤六一、将步骤五获得的源语言和目标语言词向量分开,同时将联结翻译对的单词分开为对应的源语言单词词向量和目标语言单词词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110685974.8/1.html,转载请声明来源钻瓜专利网。