[发明专利]一种基于词粒度的自然语言模型的训练方法与系统在审
申请号: | 202110588758.1 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113326693A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 李子中;刘奕志;熊杰;薛娇;方宽 | 申请(专利权)人: | 智者四海(北京)技术有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/126;G06F40/242;G06F40/284;G06N3/04;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 何明伦 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 粒度 自然语言 模型 训练 方法 系统 | ||
1.一种基于词粒度的自然语言模型的训练方法,包括:
根据词典将训练语料分词,所述分词的粒度为词语;
根据词频,将分词的结果按照词频大小排序,分为三组词语,分别为高频词语、中频词语、低频词语;
将所述三组词语嵌入向量;通过变形层进行编码与解码,得到带有浮点数的多个向量;
将所述带有浮点数的多个向量通过自适应线性层,将其中概率超过阈值的向量选择为输出,并转化为预测词语;
训练自然语言模型时,使用中文句子为样本数据,以及预先确定的预测词语为样本标签;使用自适应优化器训练自然语言模型,所述自适应优化器使用矩阵的低秩分解来压缩训练中产生的变量。
2.如权利要求1所述的方法,其中,所述自适应线性层首先只使用高频词语预测,当发现表示预测词语是中频或低频词语的第一预测概率较高时,则继续使用中频或低频词语进行预测,在得到表示预测词语是中频或低频词语的第二预测概率时,则预测词语的实际概率即为第一预测概率与第二预测概率的乘积。
3.如权利要求2所述的方法,其中,所述训练自然语言模型时,预加载了基于字粒度自然语言模型的权重,所述基于词粒度的自然语言模型的词权重是由组成该词的每一个字的基于字粒度的自然语言模型的字权重的和的平均值。
4.如权利要求3所述的方法,其中,所述分词还包括:采用将长词切分成短词和字的分词方法。
5.如权利要求1所述的方法,还包括:得到所述预测词语后,训练还包括预测下一句话的任务。
6.如权利要求1所述的方法,还包括:所述训练使用多卡分布式策略,在多个GPU上同时进行。
7.如权利要求1所述的方法,还包括:调整高频词语、中频词语、低频词语的比例,使得训练时,每次训练的数据样本数量维度可以适应GPU计算能力。
8.一种用于训练基于词粒度的自然语言模型的系统,包括:
分词单元,用于根据词典将训练语料分词,所述分词的粒度为词语;
词频单元,用于根据词频,将分词的结果按照词频大小排序,分为三组词语,分别为高频词语、中频词语、低频词语;
分析单元,用于将所述三组词语嵌入向量;通过变形层进行编码与解码,得到带有浮点数的多个向量;
预测单元,用于将所述带有浮点数的多个向量通过自适应线性层,将其中概率超过阈值的向量选择为输出,并转化为预测词语;
训练自然语言模型时,使用中文句子为样本数据,以及预先确定的预测词语为样本标签;使用自适应优化器训练自然语言模型,所述自适应优化器使用矩阵的低秩分解来压缩训练中产生的变量。
9.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至7任一项所述方法。
10.一种计算机可读存储介质,其上存储有可执行指令,所述可执行指令被处理器执行时使处理器执行如权利要求1至7任一项所述方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智者四海(北京)技术有限公司,未经智者四海(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110588758.1/1.html,转载请声明来源钻瓜专利网。