[发明专利]一种未标注文本的半监督分类方法有效

申请号：	202011537909.2	申请日：	2020-12-23
公开（公告）号：	CN112579777B	公开（公告）日：	2023-09-19
发明（设计）人：	黄翰;梁展宁	申请（专利权）人：	华南理工大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06N3/0895
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	杨望仙
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种标注文本监督分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种未标注文本的半监督分类方法，其特征在于，包括以下步骤：

S1、对每一条采集到的正例文本、负例文本和未标注文本，使用预训练语言模型得到对应的正例文本向量、负例文本向量和未标注文本向量；

S2、使用动态路由算法从步骤S1中的正例文本向量提取类向量

S3、使用神经张量模型计算类向量和文本向量距离的方法计算步骤S1中的正例文本向量和负例文本向量到步骤S2的类向量的距离，并计算正、负例文本预测误差值L₁；

使用神经张量模型计算类向量和文本向量距离的方法包括：根据类向量和文本向量的维度定义N个矩阵，对于每个矩阵M_i使用作为向量中的第i维，并使用作为类向量和文本向量之间的距离d；

S4、对于每一条未标注文本假定其为正例文本，使用动态路由算法使用步骤S1中的正例文本向量和未标注文本向量计算提取增广类向量；

S5、使用增广类向量计算未标注文本伪标签

S6、使用神经张量模型计算步骤S1中未标注文本向量和步骤S2的类向量的距离d′，并根据步骤S5的未标注文本伪标签计算未标注文本预测误差值L₂；

S7、使用步骤S3和步骤S6的误差L₁和L₂，利用反向传播算法进行神经网络模型参数的更新并完成神经网络模型训练；

S8、使用步骤S7训练好的神经网络模型和正例文本对待分类的文本进行分类。

2.根据权利要求1所述的半监督分类方法，其特征在于，步骤S1中使用预训练的BERT模型，计算各个字符在所在文本中的向量表示，并取文本首字符的向量表示作为文本的向量表示，最终得到正例文本向量、负例文本向量和未标注文本向量。

3.根据权利要求1所述的半监督分类方法，其特征在于，步骤S2包括：使用动态路由算法对k个正例文本向量进行r次迭代，计算出各个正例文本向量的权重最终通过计算出类向量

4.根据权利要求1所述的半监督分类方法，其特征在于，文本预测误差L₁的计算方法包括：使用L₁＝y-(1-d)作为文本的预测误差；如果文本为正例则y＝1，如果文本为负例则y＝0。

5.根据权利要求4所述的半监督分类方法，其特征在于，未标注文本伪标签的计算方法包括：首先使用与S3相同的神经张量模型，计算每个未标注文本对应的增广类向量与正例文本和负例文本向量的距离；然后使用和S3相同的正、负例文本预测误差计算方法，计算采用增广类向量对正、负例文本的预测误差L′；最后计算未标注文本伪标签其中：N表示正例文本和负例文本数量和。

6.根据权利要求5所述的半监督分类方法，其特征在于，未标注文本预测误差L₂的计算方法包括：使用作为未标注文本的预测误差。

7.根据权利要求1所述的半监督分类方法，其特征在于，在使用反向传播算法过程中，不计算未标注文本伪标签对其它网络参数的梯度，从而使得误差不会经由未标注文本伪标签向前传播；神经网络模型总预测误差L＝(1-λ)L₁+λL₂，λ为未标注文本预测损失的权重。

8.根据权利要求1所述的半监督分类方法，其特征在于，步骤S8包括：将训练好的神经网络模型用于文本分类时，使用待测文本向量与类向量的距离d和1的差值作为待测文本为正例的概率p＝1-d；设置阈值p_threshold，若p≥p_threshold则待测文本为正例文本，若pp_threshold则待测文本为负例文本。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南理工大学，未经华南理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011537909.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种有机小分子凝胶剂及其作为悬浮剂的无有机土油基钻井液
下一篇：具备减压及换向功能的比例阀

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种未标注文本的半监督分类方法有效

专利文献下载