[发明专利]融合词簇约束的汉越跨语言词嵌入方法有效
申请号: | 202210014277.4 | 申请日: | 2022-01-06 |
公开(公告)号: | CN114595688B | 公开(公告)日: | 2023-03-10 |
发明(设计)人: | 余正涛;武照渊;黄于欣 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/242;G06F40/216;G06F40/40 |
代理公司: | 昆明隆合知识产权代理事务所(普通合伙) 53220 | 代理人: | 何娇 |
地址: | 650500 云南*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及融合词簇约束的汉越跨语言词嵌入方法。本发明首先对汉越单语语料进行预处理并用于训练汉越单语词嵌入;然后利用在线词典和开源词库构建汉越双语词典及词簇词典,并将词与词簇两种粒度的对齐信息融入映射矩阵的训练过程中;最后通过跨语言映射框架得到汉越共享词嵌入空间,使具有相同含义的汉语与越南语词嵌入在空间中彼此接近。本发明使用不同类型的关联关系抽取汉越双语词典中的词簇对齐信息,使映射矩阵学习到多粒度的映射关系,以提升映射矩阵在非标注词上的泛化性,改善汉越低资源场景下双语空间对齐效果不佳的问题。实验结果表明,该模型在汉越词典归纳任务@1和@5上的对齐准确率相比VecMap模型提升了2.2个百分点。 | ||
搜索关键词: | 融合 约束 汉越跨 语言 嵌入 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202210014277.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种铜渣与黄铁矿协同处理的方法
- 下一篇:适用于连续自动化生产的撒粉装置