[发明专利]基于释义基元词的中英跨语言词汇表征学习方法及系统有效
申请号: | 201811158922.X | 申请日: | 2018-09-30 |
公开(公告)号: | CN109408814B | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 梁庆中;姚宏;李兵;郑坤;刘超;董理君 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/40 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 孙妮 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 释义 基元词 中英跨 语言 词汇 表征 学习方法 系统 | ||
1.基于释义基元词的中英跨语言词汇表征学习方法,其特征在于,包括:
步骤1、输入预设中文词典,获取预设中文词典中所有词汇所对应的中文释义基元词;
步骤2、对步骤1获取的中文释义基元词进行向量化表示,在预设的中文语料集中学习中文释义基元词的词嵌入,并结合中文释义基元词的本身的结构语义信息作为最终的释义基元词的词嵌入,用向量化的中文释义基元词作为向量空间的一组“基”,覆盖整个预设中文词典中的中文词汇集合;
步骤3、对预设中文词典中的每一个中文词语通过相关释义语句来获取组成每一个中文词语的语义信息的中文释义基元词,根据每一个中文词语与其对应的语义信息的中文释义基元词,得到组成每一个中文词语语义信息的每个中文释义基元词的具体权重,最终由中文释义基元词的词嵌入构成目标中文词汇的词嵌入;
步骤4、将步骤1获取的中文释义基元词翻译为对应的英文词语,并将这些英文词语作为英文释义基元词,将英文释义基元词进行向量表示,用向量化的英文释义基元词作为向量空间的一组“基”,覆盖整个预设英文词典中的英文词汇集合;
步骤5、通过预设英文词典中每一个英语词语和对应的释义语句获取组成每一个英文词语的语义信息的英文释义基元词,根据每一个英文词语与其对应的语义信息的英文释义基元词,得到组成每一个词语义信息的每个英文释义基元词的具体权重,最终由英文释义基元词的词嵌入构成目标英文词汇的词嵌入,该英文词汇的词嵌入与原中文词汇的词嵌入一一对应。
2.根据权利要求1所述的基于释义基元词的中英跨语言词汇表征学习方法,其特征在于,步骤3中根据每一个中文词语与其对应的语义信息的中文释义基元词,得到组成每一个词语义信息的每个中文释义基元词的具体权重的具体方法是:根据每一个中文词语与其对应的语义信息的中文释义基元词的上下文语义相似度和词语结构相似度,得到每一个中文词语与其对应的语义信息的中文释义基元词的上下文语义贡献和词语结构贡献,根据上下文语义和词语结构的贡献比确定具体权重。
3.根据权利要求1所述的基于释义基元词的中英跨语言词汇表征学习方法,其特征在于,步骤5中根据每一个英文词语与其对应的语义信息的英文释义基元词,得到组成每一个词语义信息的每个英文释义基元词的具体权重的具体方法是:根据每一个英文词语与其对应的语义信息的英文释义基元词的上下文语义相似度和词语结构相似度,得到每一个英文词语与其对应的语义信息的英文释义基元词的上下文语义贡献和词语结构贡献,根据上下文语义和词语结构的贡献比确定具体权重。
4.基于释义基元词的中英跨语言词汇表征学习系统,其特征在于,包括:
输入模块:用于输入预设中文词典,获取预设中文词典中所有词汇所对应的中文释义基元词;
中文覆盖模块:用于对输入模块获取的中文释义基元词进行向量化表示,在预设的中文语料集中学习中文释义基元词的词嵌入,并结合中文释义基元词的本身的结构语义信息作为最终的释义基元词词嵌入,用向量化的中文释义基元词作为向量空间的一组“基”,覆盖整个预设中文词典中的中文词汇集合;
中文学习模块:用于对预设中文词典中的每一个中文词语通过相关释义语句来获取组成每一个中文词语的语义信息的中文释义基元词,根据每一个中文词语与其对应的语义信息的中文释义基元词,得到组成每一个中文词语语义信息的每个中文释义基元词的具体权重,最终由中文释义基元词的词嵌入构成目标中文词汇的词嵌入;
英文覆盖模块:用于将输入模块获取的中文释义基元词翻译为对应的英文词语,并将这些英文词语作为英文释义基元词,将英文释义基元词进行向量表示,用向量化的英文释义基元词作为向量空间的一组“基”,覆盖整个预设英文词典中的英文词汇集合;
英文学习模块:用于通过预设英文词典中每一个英语词语和对应的释义语句获取组成每一个英文词语的语义信息的英文释义基元词,根据每一个英文词语与其对应的语义信息的英文释义基元词,得到组成每一个词语义信息的每个英文释义基元词的具体权重,最终由英文释义基元词的词嵌入构成目标英文词汇的词嵌入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811158922.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本纠正方法及装置
- 下一篇:用于语音对话平台的词库管理方法和系统