[发明专利]一种结合类词信息的语言模型预训练方法有效

专利信息
申请号: 201910775453.4 申请日: 2019-08-21
公开(公告)号: CN110489555B 公开(公告)日: 2022-03-08
发明(设计)人: 白佳欣;宋彦 申请(专利权)人: 创新工场(广州)人工智能研究有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/284;G06F40/289
代理公司: 深圳市智享知识产权代理有限公司 44361 代理人: 王琴;蒋慧
地址: 510000 广东省广州*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 结合 信息 语言 模型 训练 方法
【权利要求书】:

1.一种结合类词信息的语言模型预训练方法,其特征在于:其包括如下步骤:

S1、提供一个预训练模型以及预训练文本;

S2、从所述预训练文本中抽取字符串并形成词表;

S3、从所述预训练文本中抽取两个句子作为训练语句同时将所述训练语句分割成单字序列;

S4、将所述步骤S2中的字符串和所述单字序列中的字进行匹配,并对和所述单字序列中的字相匹配的字符串进行标记;

S5、将单字序列之中选取预设比例的单字进行遮盖或替换,且将遮盖或替换过的训练语句和被标记的字符串同时输入至预训练模型中对预训练模型进行训练并优化;

S6、重复上述步骤S2-S5直至预训练模型达到设定的优化条件以获得优化后的预训练模型;

S7、结合所述步骤S2中形成的词表对所述步骤S6中获得的优化后的预训练模型进行任务微调;

所述步骤S7具体包括如下步骤:

S71、提供微调任务文本;

S72、对所述微调任务文本分割成单字序列;

S73、将所述步骤S2中的字符串和所述步骤S72中的单字序列中的字进行匹配并对所述匹配之后的字符串进行标记;

S74、将所述单字序列和被标记的字符串同时输入至优化后的预训练模型中对预训练模型进行微调。

2.如权利要求1所述的结合类词信息的语言模型预训练方法,其特征在于:在上述步骤S2中,通过抽词算法获得字符串或者人为抽取字符串。

3.如权利要求1所述的结合类词信息的语言模型预训练方法,其特征在于:在上述步骤S3中,在抽取的两个训练语句中每个句子的结尾分别添加[sep]、在第一个句子的句首添加[cls];在所述步骤S4中,利用所述字符串的位置信息和/或长度信息对所述字符串进行标记。

4.如权利要求1所述的结合类词信息的语言模型预训练方法,其特征在于:在上述步骤S6中,每次执行步骤S2时,从预训练文件中逐一抽取两个句子作为训练语句,直至所述预训练文本中所有的句子被抽取完毕,每次抽取的两个句子是相邻的或者是不相邻的,抽取完毕时,相邻的两个句子和不相邻的两个句子所占的比例范围为40-70%,两者之和为100%。

5.如权利要求1所述的结合类词信息的语言模型预训练方法,其特征在于:所述步骤S5具体包括如下步骤:

S51、建立关于所述预训练模型的目标函数;

S52、将所述单字序列选取15%的单字进行遮盖或者替换;

S53、将遮盖或替换过的训练语句和被标记的字符串同时输入至预训练模型中;

S54、通过预训练模型预测被覆盖或替换的字以获得代表所述被覆盖或替换的字的向量表达;及

S55、利用所述向量表达计算目标函数并优化所述预训练模型。

6.如权利要求1所述的结合类词信息的语言模型预训练方法,其特征在于:在上述步骤S74中,通过全连接层或者CRF网络优化目标函数实现对所述优化后的预训练模型的优化。

7.如权利要求1-6中任一项所述的结合类词信息的语言模型预训练方法,其特征在于:所述预训练模型包括嵌入层、字符级编码器、词级别编码器、多个注意力编码器;其中,

所述嵌入层供所述步骤S5中的被遮盖或替换过的训练语句和所述步骤S4中被标记的字符串输入、所述嵌入层将所述单字转换成与每个单字对应的单字嵌入向量以及将每个字符串转换成与每个字符串对应的字符串嵌入向量同时每个单字嵌入向量和字符串嵌入向量对应加上位置编码;

所述字符级编码器供所述单字嵌入向量和其对应的位置编码输入并进行计算以获得未被遮盖或替换的字的字向量表达;

所述词级别编码器供所述字符串嵌入向量和其对应的位置编码输入并进行计算以获得词向量表达;

所述注意力编码器为多个,供所述未被遮盖或替换过的字向量表达和所述词向量表达同时输入以获得关于所述被遮盖或替换的字的向量表达;所述预训练模型还包括Linear网络层和Softmax网络层,所述字向量表达和所述词向量表达经所述注意力编码器输出之后输入至所述Linear网络层和Softmax网络层中对所述预训练模型做进一步训练和微调。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新工场(广州)人工智能研究有限公司,未经创新工场(广州)人工智能研究有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910775453.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top