[发明专利]一种基于词粒度的自然语言模型的训练方法与系统在审
申请号: | 202110588758.1 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113326693A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 李子中;刘奕志;熊杰;薛娇;方宽 | 申请(专利权)人: | 智者四海(北京)技术有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/126;G06F40/242;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 何明伦 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 粒度 自然语言 模型 训练 方法 系统 | ||
本公开提供了一种基于词粒度的自然语言模型的训练方法和系统,所述方法包括:根据词典将训练语料分词,所述分词的粒度为词语;根据词频,将分词的结果按照词频大小排序,分为三组词语,分别为高频词语、中频词语、低频词语;将所述三组词语嵌入向量;通过变形层进行编码与解码,得到带有浮点数的多个向量;将所述带有浮点数的多个向量通过自适应线性层,将其中概率超过阈值的向量选择为输出,并转化为预测词语;训练自然语言模型时,使用中文句子为样本数据,以及预先确定的预测词语为样本标签;使用自适应优化器训练自然语言模型,所述自适应优化器使用矩阵的低秩分解来压缩训练中产生的变量。
技术领域
本公开涉及自然语言处理技术领域,特别涉及一种基于词粒度的自然语言模型的训练方法、系统、电子设备及计算机可读存储介质。
背景技术
目前常见的中文自然语言模型往往是以字为粒度进行处理,即每一个中文语句都会被拆分为一个个汉字来进行处理,目前以词为粒度的中文自然语言模型很少。但是,词在汉语中扮演了非常重要的角色。在汉语中的很多词所表达的含义往往与字并没有直接的联系,如音译的国家名,音译的商品名等。从这方面来看,纯粹以词为单位存在的中文自然语言模型可以表达出字所不具备的语义。此外,训练词的语言模型能够得到高质量的上下文相关的词向量,这些词向量可以使用到各种应用和下游任务之中。
因此,急需一种基于词粒度的自然语言模型的训练方法,可以使用词粒度训练中文自然语言模型,每一条中文语句会被拆分为词而不是一个个汉字,这样做可以大大缩短一句话所需要的编码长度,从而大大加快语言模型处理任务的时间。
发明内容
有鉴于此,本公开实施例的目的在于提供一种基于词粒度的自然语言模型的训练方法,可以使用词粒度训练中文自然语言模型,每一条中文语句会被拆分为词而不是一个个汉字,可以得到高质量的上下文相关的词向量,这些词向量可以使用到各种应用和下游任务之中,也可以大大缩短一句话所需要的编码长度,从而大大加快语言模型处理任务的时间,同时,减缓未登陆词出现的频率,减少训练的溢出的问题。
根据本公开的第一方面,提供了一种基于词粒度的自然语言模型的训练方法,包括:
根据词典将训练语料分词,所述分词的粒度为词语;
根据词频,将分词的结果按照词频大小排序,分为三组词语,分别为高频词语、中频词语、低频词语;
将所述三组词语嵌入向量;通过变形层进行编码与解码,得到带有浮点数的多个向量;
将所述带有浮点数的多个向量通过自适应线性层,将其中概率超过阈值的向量选择为输出,并转化为预测词语;
训练自然语言模型时,使用中文句子为样本数据,以及预先确定的预测词语为样本标签;使用自适应优化器训练自然语言模型,所述自适应优化器使用矩阵的低秩分解来压缩训练中产生的变量。
在一个可能的实施例中,其中,所述自适应线性层首先只使用高频词语预测,当发现表示预测词语是中频或低频词语的第一预测概率较高时,则继续使用中频或低频词语进行预测,在得到表示预测词语是中频或低频词语的第二预测概率时,则预测词语的实际概率即为第一预测概率与第二预测概率的乘积。
在一个可能的实施例中,其中,所述训练自然语言模型时,预加载了基于字粒度自然语言模型的权重,所述基于词粒度的自然语言模型的词权重是由组成该词的每一个字的基于字粒度的自然语言模型的字权重的和的平均值。
在一个可能的实施例中,其中,所述分词还包括:采用将长词切分成短词和字的分词方法。
在一个可能的实施例中,还包括:得到所述预测词语后,训练还包括预测下一句话的任务。
在一个可能的实施例中,还包括:所述训练使用多卡分布式策略,在多个GPU上同时进行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智者四海(北京)技术有限公司,未经智者四海(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110588758.1/2.html,转载请声明来源钻瓜专利网。