[发明专利]融合词簇约束的汉越跨语言词嵌入方法有效
申请号: | 202210014277.4 | 申请日: | 2022-01-06 |
公开(公告)号: | CN114595688B | 公开(公告)日: | 2023-03-10 |
发明(设计)人: | 余正涛;武照渊;黄于欣 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/242;G06F40/216;G06F40/40 |
代理公司: | 昆明隆合知识产权代理事务所(普通合伙) 53220 | 代理人: | 何娇 |
地址: | 650500 云南*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 约束 汉越跨 语言 嵌入 方法 | ||
1.融合词簇约束的汉越跨语言词嵌入方法,其特征在于:所述方法的具体步骤如下:
Step1、获取汉越单语词嵌入;
Step2、基于开源词库和在线词典,使用同主题词对和高频词对两种数据构建汉越双语词典,并基于不同类型的关联关系从词典中抽取对齐词簇,构建词簇词典;
Step3、将双语词典与词簇词典中的词对齐信息和词簇对齐信息融入映射矩阵的训练过程中,分别为汉语与越南语学习到的两个单独的正交映射矩阵;
Step4、将学习到的映射矩阵融入跨语言映射框架获取汉越共享词嵌入空间,使具有相同含义的汉语与越南语词嵌入在空间中彼此接近,利用空间余弦相似度为词典外未经标注的汉语或越南语单词查找对应的翻译词;
所述Step2的具体步骤为:
Step2.1、基于多语公开数据集CLDR获取同主题对齐词对,其中包含月份、数字、颜色常用主题词的对齐词对;
Step2.2、构建停用词表,剔除汉语高频词中的助词、介词和语气词,并对剩余高频词进行人工筛选,去除特有名词及噪声词;
Step2.3、使用在线词典人工标注相应的越南语翻译,并剔除不包含在汉越单语词嵌入文件中的OOV词对;共完成构建5500对高质量的汉越双语词对,并从中随机抽取500对作为测试词典Test,剩余5000对作为汉越双语词典Seed;此外,通过汉越双语词典,分别得到词典对应的汉语与越南语词嵌入矩阵X′,Y′∈Rv×d;其中,v为词典大小,d代表词嵌入维度,X′={X′1,X′2,……,X′i,……,X′v},Y′={Y1′,Y2′,……,Yi′,……,Y′v},X′i与Yi′分别代表双语词典第i条词对所对应的汉、越单语词嵌入;
Step2.4、查找汉越双语词典中越南语翻译相同的词对,构建为一个初始的对齐词簇;然后,使用开源词库查找初始词簇在词典中的近义词对或同类词对用于扩充对齐词簇,构建为近义对齐词簇或同类对齐词簇,词典中的同主题词对作为一种封闭词类本身具有一定的弱相关性,能构建为同主题对齐词簇;近义词簇、同类词簇、同主题词簇三种类型的对齐词簇共同构成词簇词典Seed_Cls。
2.根据权利要求1所述的融合词簇约束的汉越跨语言词嵌入方法,其特征在于:所述Step1的具体步骤为:
Step1.1、去除汉越单语新闻语料中的数字、特殊字符和标点符号;
Step1.2、将越南语语料中的大写字母转换为小写字母;
Step1.3、对语料进行分词操作,汉语语料使用jieba工具进行分词,越南语语料使用Vncorenlp工具进行分词,并去除分词后长度小于20的句子;
Step1.4、将预处理好的汉越单语语料输入到单语词嵌入模型中获取汉越单语词嵌入空间X∈Rn×d,Y∈Rm×d;其中,n为训练得到的汉语词嵌入个数,m为越南语词嵌入个数,d代表词嵌入维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210014277.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铜渣与黄铁矿协同处理的方法
- 下一篇:适用于连续自动化生产的撒粉装置