[发明专利]基于释义基元词的中英跨语言词汇表征学习方法及系统有效
申请号: | 201811158922.X | 申请日: | 2018-09-30 |
公开(公告)号: | CN109408814B | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 梁庆中;姚宏;李兵;郑坤;刘超;董理君 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/40 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 孙妮 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 释义 基元词 中英跨 语言 词汇 表征 学习方法 系统 | ||
本发明公开了一种基于释义基元词的中英跨语言词汇表征学习方法及系统,将中英两种语言的词汇以向量形式表示在同一个向量空间中,并结合语义信息获得更为精准的词嵌入。首先通过对汉语词典中的释义关系进行处理获得释义基元词集合,使得释义基元词集合中的词能够覆盖词典中的所有词汇语义。其次,将获得的释义基元词向量化表示,再将汉语词典和英文词典中的所有词汇用这些释义基元词进行表示。最后,结合中英文语料库的上下文语义关系,对词汇中的释义基元词表示设置一定的权重,获得更为精准的语义关系词嵌入。与现有词嵌入相比,本发明具有词嵌入精确度高、扩展能力强以及实现方便等优点,能更好的服务于后续的自然语言处理任务。
技术领域
本发明具体涉及基于释义基元词的中英跨语言词汇表征学习方法及系统。
背景技术
词嵌入表示是指利用分布式向量来表示词的语义信息。通过将自然语言中的词汇映射成低维、稠密的向量,使词处于同一个向量空间中,由此引入“距离”的概念对词汇间的语义相似性进行测量,有助于获得语义信息更为充分表达的向量表示。目前各种基于深度学习的自然语言处理多以词嵌入表示为基础。
对于辞书释义核心词的研究,国际上已经有了不少的成果。比如由韦斯特等所编《英语教学词典》(第4版)选用了1409个词,用来解释24000个词项;《朗曼当代英语词典》选用了2000个词,用来解释56000个词项,其中还包含了用例用词。
20世纪末以来,关于元语言及其分支释义元语言的研究逐渐成为热点。国内对于释义核心词的研究也取得了不少成就。张津、黄昌宁于1996年率先筛选出了3857条“定义原语”;李葆嘉在《语义语法学理论和元语言系统研究》中提出了“释义元语言系统”概念;苏新春在《汉语释义元语言研究》中提取出释义元语言4000条;安华林在《现代汉语释义元语言研究》中提取现代汉语词典释义元语言“词元”近3000个。
跨语言词嵌入(Cross-lingual Word Embeddings,CWE)是词嵌入领域的一个分支,目的是将两种甚至多种语言的词汇以向量形式表示在同一个向量空间中,从而能够直接通过向量计算来描述不同语言词汇之间的关系,为跨语言信息处理提供良好表示形式,在近一段时间受到广泛关注。Klementiev等人最早提出跨语言词嵌入问题。近几年许多学者针对该问题开展研究,第一类方法是采用新的学习框架学习跨语言映射知识,如基于自动编码器、典型相关性分析等。第二类方法通过语料变换和洗牌,将跨语言词向量问题转变为普通词向量问题。在应用方面,跨语言词嵌入被应用于机器翻译、双语词典抽取、句法分析等任务,均取得良好的效果。
目前,获得的跨语言词嵌入对于语义信息的表达仍有较大的误差,并不能精确的表达词语的语义信息。
发明内容
本发明要解决的技术问题在于,针对上述目前表征学习技术精度不高、不能精确的表达词语的语义信息的不足,提供基于释义基元词的中英跨语言词汇表征学习方法及系统解决上述问题。
基于释义基元词的中英跨语言词汇表征学习方法,包括:
步骤1、输入预设中文词典,获取预设汉语词典中所有词汇所对应的中文释义基元词;
步骤2、对步骤1获取的中文释义基元词进行向量化表示,在预设的中文语料集中学习中文释义基元词的词嵌入,并结合中文释义基元词的本身的结构语义信息作为最终的释义基元词词嵌入,用向量化的中文释义基元词作为向量空间的一组“基”,覆盖整个预设中文词典中的中文词汇集合;
步骤3、对预设中文词典中的每一个中文词语通过相关释义语句来获取组成每一个中文词语的语义信息的中文释义基元词,根据每一个中文词语与其对应的语义信息的中文释义基元词,得到组成每一个中文词语语义信息的每个中文释义基元词的具体权重,最终由中文释义基元词的词嵌入构成目标中文词汇的词嵌入;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811158922.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本纠正方法及装置
- 下一篇:用于语音对话平台的词库管理方法和系统