[发明专利]一种未标注文本的半监督分类方法有效
申请号: | 202011537909.2 | 申请日: | 2020-12-23 |
公开(公告)号: | CN112579777B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 黄翰;梁展宁 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/0895 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 杨望仙 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标注 文本 监督 分类 方法 | ||
1.一种未标注文本的半监督分类方法,其特征在于,包括以下步骤:
S1、对每一条采集到的正例文本、负例文本和未标注文本,使用预训练语言模型得到对应的正例文本向量、负例文本向量和未标注文本向量;
S2、使用动态路由算法从步骤S1中的正例文本向量提取类向量
S3、使用神经张量模型计算类向量和文本向量距离的方法计算步骤S1中的正例文本向量和负例文本向量到步骤S2的类向量的距离,并计算正、负例文本预测误差值L1;
使用神经张量模型计算类向量和文本向量距离的方法包括:根据类向量和文本向量的维度定义N个矩阵,对于每个矩阵Mi使用作为向量中的第i维,并使用作为类向量和文本向量之间的距离d;
S4、对于每一条未标注文本假定其为正例文本,使用动态路由算法使用步骤S1中的正例文本向量和未标注文本向量计算提取增广类向量;
S5、使用增广类向量计算未标注文本伪标签
S6、使用神经张量模型计算步骤S1中未标注文本向量和步骤S2的类向量的距离d′,并根据步骤S5的未标注文本伪标签计算未标注文本预测误差值L2;
S7、使用步骤S3和步骤S6的误差L1和L2,利用反向传播算法进行神经网络模型参数的更新并完成神经网络模型训练;
S8、使用步骤S7训练好的神经网络模型和正例文本对待分类的文本进行分类。
2.根据权利要求1所述的半监督分类方法,其特征在于,步骤S1中使用预训练的BERT模型,计算各个字符在所在文本中的向量表示,并取文本首字符的向量表示作为文本的向量表示,最终得到正例文本向量、负例文本向量和未标注文本向量。
3.根据权利要求1所述的半监督分类方法,其特征在于,步骤S2包括:使用动态路由算法对k个正例文本向量进行r次迭代,计算出各个正例文本向量的权重最终通过计算出类向量
4.根据权利要求1所述的半监督分类方法,其特征在于,文本预测误差L1的计算方法包括:使用L1=y-(1-d)作为文本的预测误差;如果文本为正例则y=1,如果文本为负例则y=0。
5.根据权利要求4所述的半监督分类方法,其特征在于,未标注文本伪标签的计算方法包括:首先使用与S3相同的神经张量模型,计算每个未标注文本对应的增广类向量与正例文本和负例文本向量的距离;然后使用和S3相同的正、负例文本预测误差计算方法,计算采用增广类向量对正、负例文本的预测误差L′;最后计算未标注文本伪标签其中:N表示正例文本和负例文本数量和。
6.根据权利要求5所述的半监督分类方法,其特征在于,未标注文本预测误差L2的计算方法包括:使用作为未标注文本的预测误差。
7.根据权利要求1所述的半监督分类方法,其特征在于,在使用反向传播算法过程中,不计算未标注文本伪标签对其它网络参数的梯度,从而使得误差不会经由未标注文本伪标签向前传播;神经网络模型总预测误差L=(1-λ)L1+λL2,λ为未标注文本预测损失的权重。
8.根据权利要求1所述的半监督分类方法,其特征在于,步骤S8包括:将训练好的神经网络模型用于文本分类时,使用待测文本向量与类向量的距离d和1的差值作为待测文本为正例的概率p=1-d;设置阈值pthreshold,若p≥pthreshold则待测文本为正例文本,若ppthreshold则待测文本为负例文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011537909.2/1.html,转载请声明来源钻瓜专利网。