[发明专利]基于释义基元词的中英跨语言词汇表征学习方法及系统有效
申请号: | 201811158922.X | 申请日: | 2018-09-30 |
公开(公告)号: | CN109408814B | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 梁庆中;姚宏;李兵;郑坤;刘超;董理君 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/40 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 孙妮 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于释义基元词的中英跨语言词汇表征学习方法及系统,将中英两种语言的词汇以向量形式表示在同一个向量空间中,并结合语义信息获得更为精准的词嵌入。首先通过对汉语词典中的释义关系进行处理获得释义基元词集合,使得释义基元词集合中的词能够覆盖词典中的所有词汇语义。其次,将获得的释义基元词向量化表示,再将汉语词典和英文词典中的所有词汇用这些释义基元词进行表示。最后,结合中英文语料库的上下文语义关系,对词汇中的释义基元词表示设置一定的权重,获得更为精准的语义关系词嵌入。与现有词嵌入相比,本发明具有词嵌入精确度高、扩展能力强以及实现方便等优点,能更好的服务于后续的自然语言处理任务。 | ||
搜索关键词: | 基于 释义 基元词 中英跨 语言 词汇 表征 学习方法 系统 | ||
【主权项】:
1.基于释义基元词的中英跨语言词汇表征学习方法,其特征在于,包括:步骤1、输入预设中文词典,获取预设中文词典中所有词汇所对应的中文释义基元词;步骤2、对步骤1获取的中文释义基元词进行向量化表示,在预设的中文语料集中学习中文释义基元词的词嵌入,并结合中文释义基元词的本身的结构语义信息作为最终的释义基元词的词嵌入,用向量化的中文释义基元词作为向量空间的一组“基”,覆盖整个预设中文词典中的中文词汇集合;步骤3、对预设中文词典中的每一个中文词语通过相关释义语句来获取组成每一个中文词语的语义信息的中文释义基元词,根据每一个中文词语与其对应的语义信息的中文释义基元词,得到组成每一个中文词语语义信息的每个中文释义基元词的具体权重,最终由中文释义基元词的词嵌入构成目标中文词汇的词嵌入;步骤4、将步骤1获取的中文释义基元词翻译为对应的英文词语,并将这些英文词语作为英文释义基元词,将英文释义基元词进行向量表示,用向量化的英文释义基元词作为向量空间的一组“基”,覆盖整个预设英文词典中的英文词汇集合;步骤5、通过预设英文词典中每一个英语词语和对应的释义语句获取组成每一个英文词语的语义信息的英文释义基元词,根据每一个英文词语与其对应的语义信息的英文释义基元词,得到组成每一个词语义信息的每个英文释义基元词的具体权重,最终由英文释义基元词的词嵌入构成目标英文词汇的词嵌入,该英文词汇的词嵌入与原中文词汇的词嵌入一一对应。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811158922.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种文本纠正方法及装置
- 下一篇:用于语音对话平台的词库管理方法和系统