[发明专利]一种结合类词信息的语言模型预训练方法有效
申请号: | 201910775453.4 | 申请日: | 2019-08-21 |
公开(公告)号: | CN110489555B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 白佳欣;宋彦 | 申请(专利权)人: | 创新工场(广州)人工智能研究有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06F40/289 |
代理公司: | 深圳市智享知识产权代理有限公司 44361 | 代理人: | 王琴;蒋慧 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 信息 语言 模型 训练 方法 | ||
1.一种结合类词信息的语言模型预训练方法,其特征在于:其包括如下步骤:
S1、提供一个预训练模型以及预训练文本;
S2、从所述预训练文本中抽取字符串并形成词表;
S3、从所述预训练文本中抽取两个句子作为训练语句同时将所述训练语句分割成单字序列;
S4、将所述步骤S2中的字符串和所述单字序列中的字进行匹配,并对和所述单字序列中的字相匹配的字符串进行标记;
S5、将单字序列之中选取预设比例的单字进行遮盖或替换,且将遮盖或替换过的训练语句和被标记的字符串同时输入至预训练模型中对预训练模型进行训练并优化;
S6、重复上述步骤S2-S5直至预训练模型达到设定的优化条件以获得优化后的预训练模型;
S7、结合所述步骤S2中形成的词表对所述步骤S6中获得的优化后的预训练模型进行任务微调;
所述步骤S7具体包括如下步骤:
S71、提供微调任务文本;
S72、对所述微调任务文本分割成单字序列;
S73、将所述步骤S2中的字符串和所述步骤S72中的单字序列中的字进行匹配并对所述匹配之后的字符串进行标记;
S74、将所述单字序列和被标记的字符串同时输入至优化后的预训练模型中对预训练模型进行微调。
2.如权利要求1所述的结合类词信息的语言模型预训练方法,其特征在于:在上述步骤S2中,通过抽词算法获得字符串或者人为抽取字符串。
3.如权利要求1所述的结合类词信息的语言模型预训练方法,其特征在于:在上述步骤S3中,在抽取的两个训练语句中每个句子的结尾分别添加[sep]、在第一个句子的句首添加[cls];在所述步骤S4中,利用所述字符串的位置信息和/或长度信息对所述字符串进行标记。
4.如权利要求1所述的结合类词信息的语言模型预训练方法,其特征在于:在上述步骤S6中,每次执行步骤S2时,从预训练文件中逐一抽取两个句子作为训练语句,直至所述预训练文本中所有的句子被抽取完毕,每次抽取的两个句子是相邻的或者是不相邻的,抽取完毕时,相邻的两个句子和不相邻的两个句子所占的比例范围为40-70%,两者之和为100%。
5.如权利要求1所述的结合类词信息的语言模型预训练方法,其特征在于:所述步骤S5具体包括如下步骤:
S51、建立关于所述预训练模型的目标函数;
S52、将所述单字序列选取15%的单字进行遮盖或者替换;
S53、将遮盖或替换过的训练语句和被标记的字符串同时输入至预训练模型中;
S54、通过预训练模型预测被覆盖或替换的字以获得代表所述被覆盖或替换的字的向量表达;及
S55、利用所述向量表达计算目标函数并优化所述预训练模型。
6.如权利要求1所述的结合类词信息的语言模型预训练方法,其特征在于:在上述步骤S74中,通过全连接层或者CRF网络优化目标函数实现对所述优化后的预训练模型的优化。
7.如权利要求1-6中任一项所述的结合类词信息的语言模型预训练方法,其特征在于:所述预训练模型包括嵌入层、字符级编码器、词级别编码器、多个注意力编码器;其中,
所述嵌入层供所述步骤S5中的被遮盖或替换过的训练语句和所述步骤S4中被标记的字符串输入、所述嵌入层将所述单字转换成与每个单字对应的单字嵌入向量以及将每个字符串转换成与每个字符串对应的字符串嵌入向量同时每个单字嵌入向量和字符串嵌入向量对应加上位置编码;
所述字符级编码器供所述单字嵌入向量和其对应的位置编码输入并进行计算以获得未被遮盖或替换的字的字向量表达;
所述词级别编码器供所述字符串嵌入向量和其对应的位置编码输入并进行计算以获得词向量表达;
所述注意力编码器为多个,供所述未被遮盖或替换过的字向量表达和所述词向量表达同时输入以获得关于所述被遮盖或替换的字的向量表达;所述预训练模型还包括Linear网络层和Softmax网络层,所述字向量表达和所述词向量表达经所述注意力编码器输出之后输入至所述Linear网络层和Softmax网络层中对所述预训练模型做进一步训练和微调。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新工场(广州)人工智能研究有限公司,未经创新工场(广州)人工智能研究有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910775453.4/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置