[发明专利]一种具有多种子模块信息的中文词向量生成方法有效
申请号: | 201911172979.X | 申请日: | 2019-11-26 |
公开(公告)号: | CN111160020B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 朱鹏;程大伟;杨芳洲;罗轶凤;钱卫宁;周傲英 | 申请(专利权)人: | 华东师范大学;上海瞰点科技有限责任公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/211;G06N3/0464;G06N3/08 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 具有 多种 模块 信息 文词 向量 生成 方法 | ||
本发明提出了一种具有多种子模块信息的中文词向量生成方法,其特点是采用包括单词、字符、部首、成分、字形和拼音的六种子模块信息与注意力机制融合方法,以学习改进的汉字嵌入表示形式,将其融合到具有适当权重的词嵌入中,生成高精度的词向量。本发明与现有技术相比具有根据注意机制为每种子模块信息分配适当的权重,以减少语义含义较少的子模块的权重,提高子模块的权重,具有更丰富语义含义的模块,改善了中文单词嵌入,实现了可观的性能提升。
技术领域
本发明涉及自然语言处理技术领域,尤其是一种具有多种子模块信息的中文词向量生成方法。
背景技术
近年来,多个分布式表示,即词嵌入,基于深度神经网络的模型已经提出这为上游NLP任务奠定了坚实的基础,例如命名实体识别、文本分类、机器翻译、问题解答等,正确表达单词是自然语言处理(NLP)的最基本任务,其他正在进行的NLP任务的执行取决于单词的表示方式。传统的词嵌入方法着重于根据词的上下文来学习词的表示形式信息,并且这些方法对于IndoEuropean语言(在其书写系统中使用拉丁文字)有效。但是,对于汉藏语言,学习单词仅基于上下文信息的表示可能会省略一些重要的语义信息。这些语言中的单词通常由多个字符组成,每个字符还可以由多个字符组成笔画级子模块,其中包含丰富的语义信息可以学习以补充单词的表示形式。但是,此类信息实际上不仅被传统的词嵌入模型忽视,例如Word2vec、GloVe、WordRank和fastText,还被最新的词嵌入模型忽视,例如GPT、ELMo和BERT。
目前,为了提高中文水平词嵌入,已经开始整合字符级别和笔画级子模块信息。但是,这些方法要么只考虑一种子模块信息,而忽略其他一些重要的子模块信息,要么对某些利用的多种子模块信息给予同等的权重,即使某些子模块信息不是那么紧密与单词的语义有关。因此,表达某种语义含义的重要子模块信息没有正确地嵌入到最终的单词表示中,否则可以进一步提高表示的准确性。
现有技术的嵌入方法往往会给所使用的子模块以相等的权重,但平等对待子模块可能会使不太重要的信息强化,使重要的信息弱化,影响生成出来的词向量的精度。
发明内容
本发明的目的是针对现有技术的不足而设计的一种具有多种子模块信息的中文词向量生成方法,采用多种子模块信息与注意力机制融合方法,从而学习词语、汉字、部首、组件、字形和拼音中包含的信息,将其融合到具有适当权重的词嵌入中,生成的词向量精度高,有效解决了以相等权重对待子模块信息,使不太重要的信息强化,使重要的信息弱化的问题,为中文词向量的生成和应用工作提供了一个新的解决方案。
本发明的目的是这样实现的:一种具有多种子模块信息的中文词向量生成方法,具体操作步骤如下:
步骤1,背景和定义阶段:对词向量的背景以及在训练词向量的一些基本定义;
步骤2,模型定义阶段:采用包含六种子模块的ICWE模型,通过这些子模块的组合,基于注意力机制以学习改进的中文单词嵌入信息,所述每一子模块的信息中都隐含了一个中文单词的语义;所述ICWE模型为输入层、投影层、注意层和输出层构成的前馈神经网络;所述六种子模块分别为:上下文单词、字符、部首、组件、字形和拼音子模块;
步骤3,实验阶段:用于评估模型的基本实验设置,包括训练语料库,参数设置,基线模型以及评估任务和数据集。
上述步骤1所述背景和定义阶段的具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学;上海瞰点科技有限责任公司,未经华东师范大学;上海瞰点科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911172979.X/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置