[发明专利]一种基于BERT-base网络的带噪半监督文本分类方法在审
申请号: | 202011593101.6 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112597766A | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 任子扬;姚英彪;徐欣;李沛;刘兆霆;冯维 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert base 网络 带噪半 监督 文本 分类 方法 | ||
1.一种基于BERT-base网络的带噪半监督文本分类方法,其特征在于包括如下步骤:
S1、数据初始化阶段:将无标签样本做回译操作并产生新样本,然后将新样本输入模型,最后将其中高置信度的输出向量转化为对应one-hot标签;
S2、数据增强阶段:采用FGM方法添加扰动并作插值处理,在BERT中特定Transformer隐层而非词向量编码层做扰动和插值处理;
S3、损失函数的构造阶段;损失函数loss=ls+lsce,第一项为对带标签样本的模型输出和其真实标签求交叉熵,第二项为插值标签与插值模型输出的对称交叉熵;
S4、模型参数更新阶段:
S5、模型应用阶段:使用训练好的模型,将测试文本输入模型,模型输出向量中最大概率处对应的类别即为预测所属的分类。
2.根据权利要求1所述的一种基于BERT-base网络的带噪半监督文本分类方法,其特征在于步骤S1具体实现如下:
S11、将无标签样本通过机器翻译工具翻译成其他语言之后再翻译回原语言,以此方式由样本得到样本其中j∈{1,2,…,Nu},Nu为一个批次样本中无标签样本数量;
S12、将样本输入分类模型得到输出向量若即分类模型以一个高于阈值τ的置信度将该样本做出分类,则赋予一个one-hot预测标签标签同时对应样本和样本θ表示模型参数;
S13、若样本被赋予了one-hot标签,则也将无标签样本输入模型得到输出向量将带标签样本输入模型得到输出向量
3.根据权利要求2所述的一种基于BERT-base网络的带噪半监督文本分类方法,其特征在于步骤S2具体实现如下:
S21、BERT-base网络主要由1个词向量编码层和12个Transformer架构的隐藏层构成,这里针对无标签样本在BERT-base第3层隐藏层的输出添加扰动rj=ε·gj/||gj||,其中即向量的L2正则对该隐藏层输出h求梯度,ε为正超参数,||·||表示求向量二范数;设无标签样本的第3层隐藏层的输出为则扰动后结果为
S22、在BERT-base网络中第7、9、12隐藏层中随机选择一层进行无标签样本和有标签样本隐藏层输出的插值操作;设和分别为样本有标签样本和无标签样本在分类模型隐藏层中第k层的输出,k∈{7,9,12};对应的真实标签和预测标签分别为和
4.根据权利要求3所述的一种基于BERT-base网络的带噪半监督文本分类方法,其特征在于所述的插值操作步骤如下:
S221、利用Beta分布产生一个0~1之间的随机数λ;
S222、取λ1=max{λ,1-λ},λ2=min{λ,1-λ},即λ1>λ2且λ1+λ2=1;
S223、计算
S224、将输入第k+1层隐藏层,并经后面若干隐藏层的计算得到插值模型输出;将S2步骤整个过程记为f'(·),则插值模型输出记为two-hot形式的插值标签记为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011593101.6/1.html,转载请声明来源钻瓜专利网。