[发明专利]基于BERT的文本分类方法和装置在审
申请号: | 202210980089.7 | 申请日: | 2022-08-16 |
公开(公告)号: | CN115309901A | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 张钢;陈永录;仇国龙 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 马冬生;任默闻 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bert 文本 分类 方法 装置 | ||
1.一种基于BERT的文本分类方法,其特征在于,所述方法包括:
将获取的预测用的原始样本数据输入到训练完成的BERT预测模型中,以及
通过所述训练完成的BERT预测模型对所述预测用的原始样本数据进行文本分类,
其中,所述训练完成的BERT预测模型是通过以下方式获得的:
对获取的训练用的原始样本数据进行自适应预处理,得到训练用的输入样本;
通过动态学习率机制和分层自适应调节机制构建第一BERT预测模型;
通过所述第一BERT预测模型将所述训练用的输入样本转换为输入序列;
根据所述训练用的输入样本和所述输入序列生成对抗输入样本;以及
使用所述对抗输入样本和所述训练用的输入样本对所述第一BERT预测模型进行对抗训练,以得到训练完成的BERT预测模型。
2.根据权利要求1所述的文本分类方法,其特征在于,对获取的训练用的原始样本数据进行自适应预处理,得到训练用的输入样本包括:
根据所述训练用的原始样本数据的样本原始长度对所述训练用的原始样本数据进行自适应预处理,得到所述训练用的输入样本,
其中,
在所述样本原始长度不超过预设的最大长度时进行padding补齐来获取所述训练用的输入样本;
在所述样本原始长度超过所述预设的最大长度时,根据预设的样本首部长度和预设的样本尾部长度来获取所述训练用的输入样本。
3.根据权利要求1所述的文本分类方法,其特征在于,通过动态学习率机制和分层自适应调节机制构建第一BERT预测模型包括:
采用动态学习率机制和分层自适应调节机制对基于BERT的预训练模型进行微调训练,以构建第一BERT预测模型。
4.根据权利要求3所述的文本分类方法,其特征在于,采用所述动态学习率机制对基于BERT的预训练模型进行微调训练包括:
根据所述基于BERT的预训练模型的损失率降低的速度来判定所述基于BERT的预训练模型处于第一阶段或第二阶段或第三阶段;
根据判定结果确定所述基于BERT的预训练模型在所述第一阶段或在所述第二阶段或在所述第三阶段的学习率。
5.根据权利要求4所述的文本分类方法,其特征在于,根据判定结果确定所述基于BERT的预训练模型在所述第一阶段或在所述第二阶段或在所述第三阶段的学习率包括:
当判定所述基于BERT的预训练模型处于所述第一阶段时,确定所述基于BERT的预训练模型的学习率从小学习率ηmin上升到最大学习率ηmax;
当判定所述基于BERT的预训练模型处于所述第二阶段时,确定所述基于BERT的预训练模型的学习率从最大学习率ηmax下降到小学习率ηmin;以及
当判定所述基于BERT的预训练模型处于所述第三阶段时,确定所述基于BERT的预训练模型的学习率从小学习率ηmin收敛到最终学习率ηlast。
6.根据权利要求5所述的文本分类方法,其特征在于,采用所述分层自适应调节机制对基于BERT的预训练模型进行微调训练包括:在所述第一阶段,学习率在每一层编码器逐层上升。
7.根据权利要求1所述的文本分类方法,其特征在于,所述输入序列中的每条文本开头插入[CLS]。
8.根据权利要求1所述的文本分类方法,其特征在于,将获取的预测用的原始样本数据输入到训练完成的BERT预测模型中包括:
获取预测用的原始样本数据;
对所述预测用的原始样本数据进行自适应预处理,得到预测用的输入样本;
将所述预测用的输入样本输入到所述训练完成的BERT预测模型中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210980089.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种瓦楞纸包装箱的智能生产装置及方法
- 下一篇:出国留学资质认证方法及装置