[发明专利]基于BERT的序列生成方法及装置在审
申请号: | 202010307048.2 | 申请日: | 2020-04-17 |
公开(公告)号: | CN113536736A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 张志锐;骆卫华;陈博兴 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06F40/30 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 任媛;刘铁生 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bert 序列 生成 方法 装置 | ||
本发明公开了一种基于BERT的序列生成方法及装置,涉及自然语言处理技术领域,本发明的主要目的在于利用BERT模型实现对序列生成任务的处理。本发明主要的技术方案为:获取基于BERT模型构建的序列生成模型;设置所述序列生成模型的迭代参数;向所述序列生成模型输入第一序列数据;由所述序列生成模型根据所述第一序列数据以及迭代参数,生成第二序列数据。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于BERT的序列生成方法及装置。
背景技术
BERT模型是谷歌提出的基于双向Transformer构建的语言模型。BERT模型是将预训练模型和下游任务模型结合在一起的,也就是说在做下游任务时仍然使用BERT模型。BERT的全称为Bidirectional Encoder Representations from Transformers,即基于Transformer的双向编码器表征,其中,双向的意思表示它在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义。BERT通过联合调节所有层中的上下文来预先训练深度双向表示,因此,预训练的BERT表示可以通过一个额外的输出层进行微调以迅速适应下游任务。
但是,根据BERT模型的上述结构,该模型目前所能够处理的自然语言处理任务主要集中在文本分类任务,比如情感分类;序列标注任务,比如分词实时识别、词性标注等,并不能处理序列生成任务,比如句子简化、机器翻译等任务。而现有的序列生成模型在处理序列生成任务时采用的是单向从左到右的解码方式,使得BERT模型的训练目标与生成方式与现有的序列生成模型存在明显差异,不能很好地将BERT模型应用于序列生成任务。
发明内容
鉴于上述问题,本发明提出了一种基于BERT的序列生成方法及装置,主要目的在于利用BERT模型实现对序列生成任务的处理。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明提供一种基于BERT的序列生成方法,具体包括:
获取基于BERT模型构建的序列生成模型;
设置所述序列生成模型的迭代参数;
向所述序列生成模型输入第一序列数据;
由所述序列生成模型根据所述第一序列数据以及迭代参数,生成第二序列数据。
另一方面,本发明提供一种基于BERT的序列生成装置,具体包括:
获取单元,用于获取基于BERT模型构建的序列生成模型;
设置单元,用于设置所述获取单元得到的序列生成模型的迭代参数;
输入单元,用于向所述获取单元得到的序列生成模型输入第一序列数据;
生成单元,用于由所述序列生成模型根据所述输入单元输入的第一序列数据以及设置单元得到的迭代参数,生成第二序列数据。
另一方面,本发明提供一种基于BERT的序列生成模型,所述序列生成模型由第一BERT模型与第二BERT模型级联构成,其中,第一BERT模型的输入为所述序列生成模型的输入,第一BERT模型的输出为所述序列生成模型的输出序列的长度以及输出序列向量;第二BERT模型的输入为所述第一BERT模型输出的输出序列向量以及预设掩码参数,所述预设掩码参数用于将所述输出序列向量中的指定向量进行掩码操作,第二BERT模型的输出为对经过掩码操作的指定向量的预测结果。
另一方面,本发明提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的基于BERT的序列生成方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010307048.2/2.html,转载请声明来源钻瓜专利网。